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1. Introducere 


1.1. Cui este utilă această carte 


De câţiva ani buni, îi ajut pe studenţi să înţeleagă utilitatea statisticii în cercetarea 
socială şi de marketing. Implicit, pentru că realizarea analizelor statistice fără un 
software dedicat este dificil de imaginat astăzi, încerc să îi familiarizez cu unul 
dintre acestea. Pentru că studenţii cu care lucrez sunt, într-un număr destul de 
mare, absolvenţi de filologie sau de ştiinţe sociale, acest demers este o provocare, 
una plăcută însă. Programul de statistică utilizat în această lucrare este IBM® 
SPSS® Statistics software (SPSS)', versiunea 17. Toate operaţiunile pot fi 
reproduse folosind orice versiune recentă a programului. Vă recomand versiunile 
mai noi, pentru că sintaxa reliefează, folosind culori, diferitele elemente care o 
compun. Va fi mai uşor să vă obişnuiţi cu aceasta. 

Studenţii optează pentru un curs doar dacă acesta li se pare util. Statistica este 
cât se poate de utilă în orice domeniu, dar în ştiinţele sociale este destul de greu 
să îi convingi pe cei care se tem de matematică să aleagă de bunăvoie şi nesiliti 
de nimeni să treacă prin acest „calvar”. Unii studenţi procedează în felul următor : 
deschid progamul de statistică, în cazul de faţă SPSS, şi încearcă să reproducă 
paşii explicati în diferite manuale sau tutoriale. Inevitabil, interacționează cu concepte 
din statistică, dar le acordă mai puţină importanţă în procesul de învăţare decât 
meniurilor şi comenzilor din program. Aceasta este o perspectivă „inversă”. Nu poţi 
învăţa să foloseşti un program de statistică dacă nu ştii... statistică. Este ca şi când 
ai vrea să devii pilot de Formula 1 fără să ai permis de conducere. Această abordare 
duce la învăţare mecanică : utilizatorul intră în meniurile SPSS şi dă clickuri ici şi 
colo fără să-i fie clar de ce face aceste lucruri, de ce alege o opţiune, şi nu alta, sau 
cum sunt interpretate rezultatele pe care le oferă aceste acţiuni. 

Cum ar trebui să procedeze studentul ? Ar trebui să parcurgă un manual de 
statistică şi, simultan, un manual în care analizele statistice sunt puse în practică 
într-un program de statistică - SPSS. Cursurile de statistică teoretică sau aplicată 
nu sunt niciodată suficiente. Domeniul este atât de dezvoltat, încât subiectul nu 
poate fi epuizat într-o singură lucrare. Învăţarea statisticii este un proces. Cel sau cea 
care se angajează în acest demers trebuie să adauge consultării materialelor teoretice 
multe exerciţii folosind date reale. Astăzi este foarte la îndemână acest lucru. Tot mai 


1. SPSS Inc. a fost achiziţionat de IBM în octombrie 2009. 
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multe date sunt accesibile gratuit. Vedeţi în acest sens studiile European Values Study, 
World Values Survey, European Social Survey, Eurobarometrul etc. Pe paginile web 
ale acestor cercetări găsiţi chestionarele utilizate, documentaţie extensivă despre 
activitatea de teren, baze de date şi multe alte informaţii care vă ajută să intelegeti 
complexitatea abordării cantitative a realităţii şi tipul de rezultate care pot fi obținute 
astfel. Să presupunem că Maria şi-a dat seama că statistica este importantă şi s-a 
decis să înveţe principalele tehnici utilizate în piaţă. Dar este abia în anul I de facultate, 
astfel că nu a avut ocazia să participe la cercetări în calitate de analist. Adică nu i-a 
pus nimeni în braţe un chestionar, o bază de date şi o listă de întrebări de cercetare 
pentru soluţionarea cărora să fie nevoită să facă anumite analize statistice. În această 
situaţie, ar putea să rezolve exerciţiile din manualele de statistică folosind, evident, 
programul SPSS. Din experienţa proprie, pot spune că, într-un final, va ajunge să 
înţeleagă multe lucruri, dar pe parcurs s-ar putea să se descurajeze şi să aibă impresia 
că drumul pe care s-a angajat este foarte greu şi nu tocmai plăcut. Dacă nu este 
autodidactă sau foarte hotărâtă, atunci Maria s-ar putea să renunţe la un moment dat. 

Consider că lipseşte un manual care să îl ajute pe studentul începător în 
cercetare să unească logica activităţii de cercetare în ştiinţele sociale şi logica 
manualelor de statistică. Principalele întrebări la care răspunde acest volum sunt: 


e Care este legătura dintre chestionarul care a fost utilizat pentru a culege date 
şi baza de date? 

Cum realizaţi o bază de date ? 

Ce înseamnă să curăţaţi baza de date ? 

Ce înseamnă să pregătiţi datele pentru analiză ? 

Ce sunt codificarea şi recodificarea unei variabile ? 

Cum creaţi variabile într-o bază de date? 

De ce trebuie să vă uitaţi la date, înainte de a face analiza care vă interesează ? 
Cum faceţi această explorare primară a datelor? 

Ce este un tabel? Dar un tabel de contingenta ? 

Cum verificaţi dacă variabila X este asociată cu variabila Y ? 

Care este diferenţa dintre asociere şi corelaţie ? 

Dacă doriţi să explicati un fenomen, să zicem fericirea (Y), iar teoriile vă 
spun că este posibil ca acesta să fie explicat de mai mulţi factori, să zicem 
starea de sănătate (X1), calitatea relaţiilor sociale (X2) şi cantitatea de timp 
liber avută la dispoziţie (X3), ce tehnică statistică puteţi folosi în acest sens ? 


Lista nu este completă. Pe măsură ce citiţi acest volum, puteţi adăuga întrebările 
la care aţi găsit un răspuns. Statistica oferă mai multe metode prin care putem 
răspunde la aceeaşi întrebare. SPSS oferă mai multe comenzi pentru aceeaşi analiză. 
Le voi prezenta pe cele mai importante pentru cei aflaţi la început de drum. Tranzitia 
spre lucrurile mai dificile va fi mai uşoară după ce aţi parcurs acest volum. 

Introducere în SPSS pentru cercetarea socială şi de piaţă. O perspectivă 
aplicată se adresează, în primul rând, studenţilor care vor să facă primii paşi în 
abordarea cantitativă a socialului. Ei pot fi studenţi la sociologie, marketing sau 
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administrarea afacerilor. Logica este în multe situaţii similară în aceste domenii. 
Apoi, sunt vizati masteranzii care au o pregătire limitată în statistică şi utilizarea 
SPSS-ului, dar şi doctoranzii care nu au urmat un curs intensiv în acest domeniu 
şi nici nu au lucrat în multe proiecte care folosesc date cantitative. De asemenea, 
cred că este util şi pentru cercetătorii care au utilizat SPSS, dar l-au învăţat, mai 
degrabă, „pe încercate”, şi nu în mod sistematic. 


1.2. Ce conţine această carte şi cum să o citim 


Acord o atenţie considerabilă aspectelor premergătoare activităţii de analiză 
cantitativă a datelor culese prin aplicarea unor chestionare. O mare parte din 
timpul activităţii de analiză este consumat de aceste aspecte preliminare. Primele 
elemente care îl preocupă pe cercetătorul cantitativist sunt elaborarea bazei de 
date (capitolul 2) şi curăţarea acesteia (capitolul 4). Pentru procesul de curăţare, 
acesta trebuie să înveţe câteva operaţiuni cum ar fi filtrarea bazei de date 
(capitolul 3) sau crearea de variabile noi (capitolul 5). Este dificil să scrii o lucrare 
care urmăreşte toţi aceşti paşi, exact în ordinea în care se întâmplă în realitate. 
Demersul este circular, de aceea, de exemplu, în procesul de curăţare voi folosi 
informaţii prezentate şi în capitolele ulterioare, cum ar fi cele despre tabelele de 
contingenţă (capitolul 6). Cert este că informaţiile din capitolele 2, 3, 4 şi 5 sunt 
esenţiale şi trebuie citite înainte de a trece la capitolul 6. Odată cu capitolul 6, 
cititorul primeşte şi informaţii despre analizele statistice uzuale care pot fi utilizate 
pentru a răspunde la întrebări de cercetare. Cum observăm modul în care gândeşte 
majoritatea? Cât de omogene sunt diferite grupuri în funcţie de o anumită 
caracteristică? Media, mediana, abaterea standard şi altele sunt doar câteva 
elemente utile pentru a răspunde la astfel de întrebări. Tabelul de contingenţă ne 
va ajuta să vedem dacă două variabile sunt independente sau nu. Apoi, aflăm cum 
putem testa diferenţa dintre două sau mai multe grupuri în funcţie de o caracte- 
ristică. După aceea, aflăm cum explicăm variaţia unei variabile în funcţie de mai 
multe caracteristici. Media generală la învăţătură a elevilor care au făcut trei ore 
de educaţie fizică pe săptămână la şcoală este mai ridicată decât cea a elevilor 
care au făcut cel mult o oră de educaţie fizică pe săptămână la şcoală? Volumul 
vânzărilor iaurtului cu căpşuni produs de firma „Iaurt pentru toţi” este mai mare 
dacă în hipermarketuri se foloseşte testarea produsului (adică firma a angajat 
promotori care le oferă potenţialilor cumpărători să guste iaurtul respectiv) decât 
dacă nu se foloseşte ? Informaţiile prezentate în acest volum pot fi utilizate atât 
în situaţii întâlnite în cercetarea socială, cât şi în cea de piaţă. La acest gen de 
întrebări putem răspunde statistic folosind informaţiile din capitolul 6. Realitatea 
socială este mult mai complexă. Nu ne putem aştepta ca media generală la 
învăţătură a elevilor să depindă doar de practicarea frecventă a unor activităţi 
sportive, la fel cum nu ne putem aştepta ca volumul vânzărilor unui tip de iaurt 
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să depindă doar de prezenţa promotorilor în magazine. Am putea adăuga, pentru 
primul caz, numărul de ore petrecute în bibliotecă studiind individual, ajutorul 
primit din partea părinţilor, participarea la activităţi extraşcolare cu caracter 
educativ, numărul colegilor sau prietenilor cu care elevul îşi petrece timpul liber, 
caracteristicile acestora etc. În al doilea caz, am putea adăuga calitatea distribuţiei, 
atractivitatea ambalajului, preţul produsului, poziţionarea la raft etc. Avem, aşadar, 
o variabilă dependentă şi mai multe variabile independente. Pentru acest gen de 
situaţii, informaţiile prezentate în capitolul 8 vor fi utile. 

Capitolul 7 tratează o serie de asumptii fundamentale pentru analizele statistice 
prezentate în capitolele 6 şi 8. Aş fi putut opta pentru o prezentare sumară în cadrul 
fiecărui capitol, însă am vrut să subliniez importanţa acestui pas. Domeniul explo- 
rării asumptiilor este vast, depăşind obiectivele acestui volum care constituie, în 
primul rând, un material introductiv. Pe măsură ce învăţaţi mai multe analize sta- 
tistice, în special multivariate, veţi identifica şi alte asumptii care trebuie testate. 

Toate capitolele se încheie cu o listă de exerciţii care pot fi folosite pentru a 
pune în practică informaţiile prezentate pe parcursul capitolului respectiv. Exerciţiile 
înseamnă experienţă acumulată atât cu conceptele, cât şi cu programul de statistică. 
Consider că niciodată nu facem suficiente exerciţii, aşadar lista cu exerciţii de la 
finalul fiecărui capitol este doar un prolog al eforturilor dumneavoastră viitoare. 


1.3. Materiale suplimentare 


Puteţi descărca date utilizate pentru diferite exemple, sintaxe şi outputuri produse 
de aceste sintaxe de pe pagina de internet: http: //www.marian-vasile.ro/ 
publications/spss. 


1.4. Mulţumiri 


Aş vrea să le mulţumesc celor de la care am învăţat, la rândul meu, multe dintre 
lucrurile pe care le ştiu atât despre analizele statistice, cât şi despre utilizarea 
SPSS. În primul rând, vreau să îi mulţumesc lui Bogdan Voicu, care nu numai 
că mi-a răspuns la toate întrebările, dar mi-a oferit şi oportunitatea de a-i fi 
asistent la cursurile sau trainingurile ţinute în diferite contexte. Apoi, aş vrea să 
îi mulţumesc lui Alexandru Cernat pentru că a acordat timp citirii acestui material, 
oferindu-mi sugestii extrem de utile. Îi mulţumesc lui loan Mărginean pentru că 
m-a provocat să gândesc critic diferite situaţii întâlnite în cercetarea calităţii vieţii, 
şi nu numai. Nu în ultimul rând, le mulţumesc lui Liviu Chelcea şi Lazăr 
Vlăsceanu pentru că m-au încurajat să public această lucrare. 
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Multe dintre informaţiile acumulate şi transpuse, într-o formă sau alta, în acest 
volum au fost acumulate în cadrul unor proiecte de cercetare similare cu cel 
postdoctoral susţinut de UEFISCDI, care s-a derulat între 2011 şi 2013 sub denumirea 
Drumuri diferite către o viata mai bună: comparații internationale longitudi- 
nale ale determinantilor satisfactiei cu viata (PN-II-RU-PD-2011-3-0117). Un alt 
proiect este cel coordonat de Bogdan Voicu, care s-a derulat intre 2011 si 2014 sub 
titlul Schimbarea socială în contextul migraţiei internationale : patternuri valorice, 
participare civică şi politică, satisfacția cu viata (PN-II-ID-PCE-2011-3-0210). Pentru 
mai multe detalii, puteţi consulta paginile de internet http : //www.stilurideviata.ro 
şi http : //www.romanianvalues.ro. 


2. Crearea unei baze de date 


„Cercetare cantitativă” sau „analiză cantitativă” sunt două concepte frecvent 
folosite de practicieni în activitatea de zi cu zi. Ambele fac trimitere la culegerea 
şi analiza unor informaţii prin utilizarea chestionarului ca instrument de cercetare. 
Chestionarul cuprinde o serie de întrebări închise şi, uneori, şi întrebări deschise. 
Întrebările închise au răspunsurile predefinite de cercetător, persoana care este 
rugată să răspundă la întrebare (respondentul) trebuind doar să îl aleagă pe cel 
care i se potriveşte cel mai bine. Întrebările deschise nu au răspunsuri predefinite, 
respondentul trebuind să compună, folosind cuvintele proprii, un răspuns care 
caracterizează cel mai bine modul cum gândeşte, se comportă sau, mai general, 
care prezintă situaţia sa la momentul intervievării sau la cel de referinţă folosit 
de cercetător. Tabelul 2.1 prezintă un exemplu care diferenţiază aceste două tipuri 
de întrebări. 


Tabelul 2.1. Două tipuri de întrebări folosite în chestionare : închise şi deschise 

















Întrebare închisă Întrebare deschisă 

D2. Ocupaţia dvs. actuală (principală) : Q112. Cum se numeşte munca pe care o 

1. agricultor desfasurati (la principalul loc de munca) ? 
2. muncitor (meseriaş) 

3. tehnician, maistru, funcţionar 

4. ocupaţii cu studii superioare Q1ll2a. Ce fel de activitate desfasurati in cea 
5. altă ocupaţie mai mare parte a timpului? 

6. elev, student 

7. pensionar 

8. casnică 

9. acum sunt şomer 

10. patron 

Sursa: Diagnoza calităţii vieţii din România, | Sursa: European Values Study, Institutul de 
Institutul de Cercetare a Calităţii Vieţii, 2010. | Cercetare a Calităţii Vieţii, 2008. 











În exemplul din tabelul 2. 1, cercetătorul este interesat să afle structura ocupatiilor 
din România. Dacă foloseşte întrebarea închisă, atunci respondentul va alege 
varianta de răspuns care se potriveşte cel mai bine situaţiei sale. Dacă foloseşte 
întrebarea deschisă, atunci respondentul va descrie în cuvinte, cât mai detaliat, 
situaţia sa cu privire la acest subiect. De regulă, preferăm să folosim întrebări 
închise în chestionare pentru că aplicarea acestora durează mai puţin, sunt mai 
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uşor de înţeles, se introduc mai repede în baza de date, ne reprezentăm mai uşor 
ce fel de analize statistice putem realiza cu ele etc. Dacă optează pentru această 
variantă, cercetătorul trebuie să se asigure că lista variantelor de răspuns este 
completă, iar acestea nu se suprapun, adică respondentul nu se poate regăsi în 
mai multe răspunsuri simultan. Există situaţii, însă, în care mai multe răspunsuri 
sunt plauzibile pentru aceeaşi persoană, acestea fiind surprinse prin întrebările cu 
răspuns multiplu. Dacă optează pentru varianta cu întrebări deschise, atunci cerce- 
tătorul trebuie să ştie cum va codifica răspunsurile primite. Codificarea presupune 
ca, din lista lungă de răspunsuri primite, să construiască una mai restrânsă, astfel 
încât fiecare categorie să poată primi un cod unic care va fi introdus în baza de 
date şi, ulterior, va fi folosit pentru diferite analize statistice. De exemplu, întrebarea 
D2 (tabelul 2.1), are coduri de la 1 la 10. În acest exemplu, codificarea la Q112 şi 
Qll2a (tabelul 2.1), va fi realizată folosind o schemă de coduri standardizată, 
International Standard Classification of Occupations’ (ISCO ; Clasificarea inter- 
naţională standard a ocupatiilor). Aceasta are mai multe variante. Dacă ne uităm la 
ISCO-88, putem vedea că, la nivelul cel mai înalt de generalitate, din răspunsurile 
deschise putem obţine zece coduri, numerotate de la O la 9. Fiecare dintre aceste 
categorii ocupaţionale largi poate fi divizată în mai multe subgrupuri. La cel mai 
rafinat nivel de specificare se poate ajunge la 390 de grupuri ocupaţionale, adică 
390 de coduri. Nivelul de detaliu ales de cercetător depinde, în mare măsură, de 
volumul eşantionului pe care îl foloseşte. 

Informaţii despre tipurile de întrebări, regulile de elaborare a acestora, opţiunea 
pentru o formă sau alta şi nu numai pot fi găsite în lucrările dedicate subiectului 
cum ar fi cele elaborate de Mărginean (1982), Bradburn, Sudman et al. (2004), 
Chelcea (2007), Saris si Gallhofer (2007) sau Malhotra (2007). Acestea sunt 
cunoştinţe complementare celor prezentate aici şi trebuie însuşite pentru o inte- 
legere adecvată a procesului cercetării cantitative. 

După aplicarea chestionarelor, acestea trebuie introduse în baza de date. Apoi 
baza de date trebuie curățată. Abia după aceste etape, putem trece la analizele 
statistice prin care răspundem la întrebările de cercetare. În acest capitol vom 
afla cum se realizează o bază de date în care sunt introduse chestionare şi cum 
ajungem la baza de date în format SPSS. În capitolul 3 vom învăţa câteva comenzi 
esenţiale pentru gestionarea bazei de date, iar în capitolul 4 vom afla care sunt 
etapele procesului de curăţare a bazei de date şi ce presupune fiecare dintre ele. 

Să presupunem că avem 1.000 de chestionare care trebuie introduse într-o 
bază de date. Pentru aceasta, există mai multe opţiuni. Astăzi, din ce în ce mai 
multe institute şi companii de cercetare socială şi/sau de piaţă înlocuiesc chesti- 
onarele pe hârtie cu chestionarele în format digital. Adică operatorul de teren nu 


1. Documentele despre această clasificare pot fi consultate pe pagina dedicată de pe 
site-ul ISCO: http ://www.ilo.org/public/english/bureau/stat/isco/isco88/publ3.htm. 
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mai completează cu pixul pe hârtie răspunsurile la întrebări, ci dă click pe un 
laptop sau pe o tabletă. Formatul digital de aplicare a chestionarelor are mai multe 
avantaje faţă de cel clasic, pe hârtie. Baza de date, chiar şi cea în format SPSS, 
este creată direct, fiind redus astfel necesarul de resurse umane, timp şi bani 
pentru finalizarea cercetării. De asemenea, numărul erorilor întâlnite în procesul 
de introducere a datelor este redus considerabil. Nu în ultimul rând, activitatea 
operatorului de teren poate fi mai bine controlată. Deşi investiţia iniţială în tablete 
sau alte instrumente electronice care pot fi utilizate pentru aplicarea chestionarelor 
este costisitoare, pe termen lung, investiţia se amortizează şi îşi relevă utilitatea. 
Din ce în ce mai frecvent, chestionarele se aplică şi on-line. Respondentul primeşte 
un link prin care poate accesa chestionarul pe care îl completează singur. Există 
o mulţime de soluţii pentru această tehnică, cum ar fi şi cea de tip open source, 
LimeSurvey!. Mai putem adăuga aplicarea prin telefon sau e-mail şi, poate mai 
rar, prin poştă. Pentru detalii despre fiecare în parte, puteţi consulta manuale de 
metodologie a cercetării sociale sau de piaţă cum ar fi Marketing Research. An 
Applied Approach (Malhotra şi Birks, 2007). 

Mulţi studenţi, masteranzi, doctoranzi, cercetători sau chiar firme şi institute 
de cercetare nu îşi permit achiziţionarea unor tablete cu software dedicat acestor 
acţiuni. De aceea, utilizează, în continuare, chestionarele tipărite pe hârtie care 
trebuie introduse într-o bază de date. Apoi această bază de date trebuie curățată. 
Soluţii la îndemână în aceste situaţii sunt cele oferite de programele din suita 
Microsoft Office, mai exact, Microsoft Excel şi Microsoft Access. În proiectele 
la care am lucrat, de cele mai multe ori, am introdus datele într-o bază de date 
realizată cu ajutorul Microsoft Access. În continuare, voi descrie paşii prin care 
realizăm o bază de date pentru introducerea chestionarelor folosindu-ne de Microsoft 
Excel, apoi de Microsoft Access. Apoi vom afla cum aducem în SPSS datele 
introduse într-unul dintre aceste programe. 


2.1. În ce program introducem chestionarele ? 


Acest subcapitol se referă la cercetările în care chestionarele sunt tipărite şi 
aplicate de un operator de interviu prin procedeul fata în faţă sau în care acestea 
sunt completate pe hârtie de către respondenţi. 

SPSS are propriile soluţii de introducere a datelor. Mai multe detalii despre 
acestea şi alte programe din domeniu pot fi găsite pe pagina de internet a produ- 
cătorului programului?. 


1. https : //www.limesurvey.org/en. 
2. http ://www-01.ibm.com/software/analytics/spss. 
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2.1.1. Introducerea datelor în Microsoft Excel 


Microsoft Excel este un program indispensabil în activitatea de cercetare, cu 
ajutorul căruia putem face diferite calcule, tabele sau grafice. Pe lângă acestea, 
poate fi folosit şi pentru introducerea într-o bază de date a răspunsurilor la întrebările 
din chestionare. De fapt, vom alege un software sau un altul în funcţie, în principal, 
de răspunsul la următoarea întrebare: pot fi evitate erorile de introducere a 
datelor ? Altfel spus, dacă vrem să introducem răspunsurile la variabila gen, adică 
1 = bărbat sau 2 = femeie, putem evita introducerea din greşeală a codului 3? 
Când introduceţi unu-două chestionare, aceasta nu este o problemă deosebită pentru 
că puteţi observa greşeala neintenţionată. Dar dacă introduceţi 300 de chestionare, 
fiecare având 100 de variabile, de la un moment dat nu mai observați la fel de uşor 
acest gen de greşeală. Dacă variabila dinaintea sau de după gen include printre 
codurile valide valoarea 3, atunci chestionarul poate fi introdus decalat. Vom vedea 
în capitolul 4, dedicat procesului de curăţare, că astfel de erori pot fi identificate, 
dar corectarea lor presupune timp suplimentar de lucru. Aşadar, dacă pot fi puse 
condiţii care permit introducerea doar a codurilor corecte, atunci software-ul 
respectiv este adecvat pentru introducerea datelor. Un alt factor care contează în 
alegerea programului în care introducem datele constă în posibilitatea de a crea un 
formular de introducere care este plăcut privirii şi care nu îl oboseşte pe operator. 

Să presupunem că avem un chestionar cu trei variabile : id (o variabilă care 
are un cod unic pentru fiecare respondent), v1 (gen, unde 1 = bărbat sau 2 = 
femeie) şi v2 (tipul de băutură carbogazoasă preferată, unde 1 = apă, 2 = suc 
cu cofeină sau 3 = suc de fructe). Vom prezenta în continuare o metodă rapidă de a 
elabora o bază de date în Microsoft Excel şi de a introduce date în aceasta. De exemplu, 
la întrebări ne-au răspuns şase persoane. Aşadar, trebuie să avem şase valori diferite 
la id. Pentru simplitate, acestea vor fi 1, 2, 3, 4, 5 şi 6. Respondentul 1 este bărbat, 
deci primeşte codul 1. Acesta preferă apa, primind codul 1. Respondentul 6 este 
femeie, deci primeşte codul 2. Aceasta preferă sucul de fructe, primind codul 3. 
Datele care trebuie introduse sunt : 





id |vi |v2 
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Deschidem o foaie goală în programul Microsoft Excel, iar cursorul ne duce în 
celula A1, adică la intersecția coloanei A cu rândul 1. Coloanele reprezintă 
variabilele (id, v1, v2), iar rândurile reprezintă respondentii (cele şase persoane). 
În celula A1 scriem id. În celula B1 scriem v1. În celula C1 scriem v2. Rezultatul 
ar trebui să arate ca în figura 2.1. 
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Figura 2.1. Crearea unei baze de date in Excel. Pasul 1: 
introducerea denumirilor variabilelor 
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Înainte de a introduce datele, trebuie să stabilim condițiile pentru fiecare 
variabilă : 
e id să aibă valori cuprinse doar între 1 şi 6; 

vl să aibă doar valorile 1 sau 2 ; 
e v2 să aibă valori cuprinse doar între 1 şi 3. 


Ne ducem cu mouse-ul deasupra literei A, la numele primei coloane, şi dăm click. 
Prin această operaţie, selectăm conţinutul întregii coloane A. Apoi mergem în meniul 
Data > Validation. Se va deschide fereastra din figura 2.2. Ne interesează opţiunile 
din taburile Settings şi Error Alert. În tabul Settings definim condiţia. În tabul 
Error Alert vom scrie un mesaj de atenţionare pentru operatorul care introduce 
chestionarele, precizând variantele corecte acceptate de celulele respective. 


Figura 2.2. Impunerea condiţiilor de introducere a datelor în Excel. 
Tabul Settings : fereastra iniţială 


Data Validation 
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Pentru că am selectat coloana A, adică variabila id, trebuie să impunem 
condiţiile pentru aceasta: pot fi introduse doar valorile 1, 2, 3, 4, 5 sau 6. În 
tabul Settings, secţiunea Allow : selectăm Whole number. Se va activa secţiunea 
Data: în care lăsăm selectat between. Pentru că am lăsat selectat between, se 
activează alte două secţiuni, Minimum: si Maximum :, în care introducem 
codul 1, respectiv 6 (figura 2.3). Dacă operatorul introduce din greşeală codul 7, 
nepermis în acest exemplu, atunci programul îl va avertiza că face o eroare înainte 
de a-i permite să continue introducerea datelor. 


Figura 2.3. Impunerea condiţiilor de introducere a datelor în Excel. Tabul Settings : 
fereastra cu condiţii 


Data Validation 

















În tabul Error Alert: 


e in secţiunea Style, selectăm Warning ; 
în secţiunea Title tastăm numele variabilei Id. În această secţiune vom intro- 
duce numele variabilei pentru care impunem condiţia. Astfel, vom identifica 
uşor la care variabilă se referă avertizarea ; 

e în secţiunea Error message tastăm mesajul de avertizare pentru operatorul de 
introducere : „Poţi introduce doar valori între 1 şi 6” (figura 2.4). Salvăm 
ceea ce am lucrat (apăsaţi simultan tastele CTRL + S). 
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Figura 2.4. Impunerea condiţiilor de introducere a datelor în Excel. Tabul Error 
Alert: fereastra cu mesaj în stilul Warning 


Data Validation 21x! 
Settings | InputMessage {i | 


IV Show error alert after invalid data is entered 
When user enters invalid data, show this error alert: 












Style: Title: 
[Warning bc | [id 
Error message: 


poti introduce doar valori intre 1 si 6 





as 





ceru eT] cons | 


Putem trece la variabila următoare, vl. În această etapă, trebuie să instruim 
programul să accepte doar codurile 1 sau 2. Vom utiliza aceleaşi condiţii ca mai sus. 
La fel procedăm şi cu v2. Modificăm numele variabilei în secţiunea Title şi mesajul 
care apare în secţiunea Error message: Pentru v1, mesajul va fi „Poţi introduce 
doar valorile 1 sau 2”. Pentru v2, mesajul va fi „Poţi introduce doar valorile 1, 2 
sau 3”. Salvăm ceea ce am lucrat (apăsăm simultan tastele CTRL + S). 

Baza de date este finalizată. Acum trebuie să verificăm dacă funcţionează 
conform aşteptărilor. Verificarea va fi realizată prin introducerea unor coduri 
greşite. În acest sens, putem opta pentru două variante. Prima variantă, cea mai 
la îndemână, presupune să tastăm direct în celule, adică introducem valoarea 7 
în celula A2. Această variantă este utilă atunci când avem puţine variabile şi puţini 
respondenţi, adică sunt puţine coloane şi rânduri. Dacă avem foarte multe coloane 
şi foarte multe rânduri, va deveni obositor pentru operatorul de introducere să le 
urmărească. Excel oferă o variantă mai simplu de folosit, constând într-un for- 
mular. Formularul poate fi accesat din meniul Data > Form.... Înainte de a 
accesa acest meniu, selectăm cele trei coloane care contin variabilele id, v1 şi v2. În 
figura 2.5 este prezentat un formular gol şi un formular cu informaţiile introduse 
pentru respondentul 1. După ce am terminat de introdus datele pentru un respon- 
dent, apăsăm butonul New şi trecem la următorul respondent. 
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Figura 2.5. Formular de introducere a datelor în Excel. Formular gol şi formular cu 
informaţii introduse pentru un respondent 





Dacă am fi introdus valoarea 7 la id, atunci programul ne-ar fi avertizat că 
această valoare nu face parte dintre cele valide. Repetăm operaţiunea şi pentru 
vl, introducând altceva decât valorile 1 sau 2. La fel şi pentru v3, introducând 
altceva decât valorile 1, 2 sau 3. Dacă totul funcţionează conform aşteptărilor 
noastre, atunci putem trece la introducerea datelor. După introducere, baza de 
date ar trebui să arate ca în figura 2.6. Vom avea şapte rânduri pentru că primul 
conţine numele variabilelor. 


Figura 2.6. Bază de date creată în Excel 
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În practică, lucrurile sunt mai complexe. De exemplu, in foarte multe chestionare, 
dacă nu în toate, există întrebări-filtru. Adică respondentului 1, pentru că la v2 a ales 


5» 


răspunsul „apă” (codul 1), ar putea să îi fie adresată o altă întrebare: „Ce marcă 
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preferaţi din lista: 1. Dorna, 2. Bucovina, 3. Izvorul minunilor ? ”. Sau responden- 
tului 2, pentru că la v2 a ales răspunsul „suc cu cofeină” (codul 2), ar putea să îi fie 
adresată o altă întrebare : „Ce marcă preferaţi din lista: 1. Coca Cola, 2. Pepsi 
Cola, 3. Adria Cola? ”. În aceste situaţii, mi se pare mai simplu de utilizat programul 
Microsoft Access. Preferinta pentru un program sau altul este, in final, o chestiune 
de gust sau de experienţă cu unul sau altul. O altă caracteristică după care mă ghidez 
în alegerea programului cu care lucrez pentru o sarcină anume este uşurinţa cu care 
pot găsi informaţii ajutătoare despre diferite operaţiuni pe care trebuie să le efectuez 
cu acesta. lar Excel, Access şi SPSS stau foarte bine la acest capitol. 


2.1.2. Introducerea datelor în Microsoft Access 


În cercetările la care am participat, am folosit adesea Microsoft Access, de aceea 
vă voi explica pe scurt cum se creează o bază de date în acest program. 

Baza de date creată în Access sau în Excel va fi importată în SPSS. Pentru ca 
această tranziţie să funcţioneze corect, dar şi pentru a ne fi uşor să lucrăm cu 
variabilele din baza de date, trebuie să respectăm câteva condiţii : 


e Să citim chestionarul cu atenţie şi să identificăm toate variabilele care trebuie 
să facă parte din baza de date. O întrebare poate conţine mai multe variabile. 
Toate variabilele trebuie să se regăsească în baza de date. 

e Chestionarele trimise în teren să aibă un identificator (id) unic. De exemplu, 
id-ul poate fi numărul chestionarului. Dacă avem 1.000 de chestionare de 
aplicat, atunci acestea sunt numerotate de la 1 la 1.000, fără repetiţii. Numărul 
chestionarului va fi id-ul. Acesta poate fi şi mai complex de atât, decizia pentru 
forma finală depinzând de designul cercetării. Cert este că nu există bază de 
date fără această variabilă. 

e Fiecare variabilă să aibă un nume (name) care este diferit de al celorlalte 
variabile. 

e Numele să înceapă cu o literă. Numerele pot fi folosite ulterior. Între caractere, 
fie că sunt litere, fie că sunt numere, nu se lasă spaţiu. Dacă dorim să separăm 
diferite elemente ale numelui, atunci utilizăm semnul „_”. 

- Corect: vi. Incorect: Jv. 
- Corect: vi. Incorect: v 1. 
- Corect: v_1. Incorect: v 1. 

e Vă recomand să scrieți cu literă mică întregul nume. Dacă trebuie să realizați 
o analiză statistică în alt program, iar acel program face distincţia între litere 
mari şi litere mici, atunci există posibilitatea să vă incurcati în denumiri. 

e Deşi versiunile mai noi de SPSS permit să folosiţi nume lungi, vă recomand 
să folosiţi nume scurte, pentru a le putea găsi uşor în lista de variabile din 
meniuri. Un nume scurt este mai uşor de ţinut minte decât un nume lung. 
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Dacă va trebui să folosiţi o variabilă cu nume lung într-o analiză efectuată cu 
alt program de statistică, iar acel program nu acceptă decât, de pildă, maximum 
8 caractere, atunci numele va fi trunchiat şi s-ar putea să vă fie greu să o mai 
găsiţi în baza de date. 


Access foloseşte tabele şi formulare create pornind de la tabele. Tabelul este 
baza de date. Formularul este interfaţa prietenoasă pe care o poate folosi operatorul 
pentru a introduce chestionarele în baza de date. 

Prima etapă în crearea unei baze de date în Access constă în crearea unui tabel. 
Pentru un chestionar scurt va fi suficient un singur tabel. Pentru chestionare lungi, 
cu multe întrebări şi, implicit, variabile, va trebui, probabil, să creaţi mai multe tabele. 
Există multe manuale şi tutoriale dedicate acestui subiect. De aceea voi nota aici doar 
lucrurile elementare care ne interesează într-o cercetare socială obişnuită. 

Să deschidem programul. Odată deschis, mergem în meniul File > New > 
Blank Database. Dăm un nume bazei de date şi o salvăm undeva în computer. 
Inserăm un tabel în formatul Design View. Voi folosi ca exemplu chestionarul 
utilizat în cercetarea Diagnoza calității vieții din România (DCV 2010) realizată 
în 2010 de Institutul de Cercetare a Calităţii Vieţii din cadrul Academiei Române. 

Prima variabilă va fi, întotdeauna, cea care conţine identificatorul unic pentru 
fiecare chestionar. Chestionarele au fost numerotate de la 1 la n, unde n 
reprezintă numărul total de chestionare completate de operatorii de teren conform 
designului cercetării. Această variabilă poartă numele „nrchest”. Aceasta va fi 
cheia primară (primary key) a tabelului. Putem avea o singură cheie primară 
într-un tabel. Access o va defini singur, dar putem să ne asigurăm că este cea 
corectă dacă în dreptul variabilei dorite este vizibilă o cheie. Putem alege ca 
această cheie să fie completată de program sau să o introducem noi. Deşi a 
doua variantă este mai supusă greselii, eu o prefer pentru că imi permite să 
folosesc chiar informaţia notată pe chestionar. Acest lucru este cu atât mai 
important atunci când ID-ul nu porneşte de la 1, ci este un cod mai complicat 
dat de responsabilul de teren fiecărui chestionar. Definirea manuală a cheii 
primare se face astfel: în tabel, în formatul Design View, în coloana Field 
Name introducem nrchest. În coloana Data Type selectăm Number. Am 
instruit, astfel, programul că pentru variabila nrchest, introducem numere. Apoi, 
ducem cursorul pe indicatorul rândului, dăm click dreapta şi selectăm Primary 
Key. Salvăm tabelul (apăsăm simultan tastele CTRL + S). 

Acum putem continua definirea variabilelor din chestionar. În chestionarul 
DCV 2010, respondentului îi sunt adresate mai întâi o serie de întrebări sociode- 
mografice. Echipa care a întocmit chestionarul a avut în vedere, în faza de 
redactare, faptul că trebuie realizată o corespondenţă perfectă între hârtie şi 
computer, între chestionar şi baza de date. Astfel, toate variabilele au primit în 
chestionarul tipărit un nume unic care respectă condiţiile enumerate mai sus. 
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Prima variabilă are numele dl, a doua d2, a treia d3, iar lista continuă până la 
d119. După d119, urmează o secţiune scurtă de întrebări adresate operatorului de 
teren, acestea având numele opl, op2, ..., op9. 

Primul lucru pe care respondentul este rugat să îl declare este genul. Numele 
acestei variabile este d1. Genul (d1) are două variante de răspuns: masculin sau 
feminin. Varianta masculin a primit codul 1. Varianta feminin a primit codul 2. 
În baza de date trebuie introduse codurile care se regăsesc în chestionar şi nimic 
altceva. Transformările se fac, ulterior, în SPSS. De exemplu, dacă în chestionar 
respondentului i s-a cerut să declare anul în care s-a născut, atunci în baza de 
date vom introduce anul naşterii. Nu îi vom cere operatorului de introducere să 
calculeze vârsta şi să introducă valoarea rezultată. 

Revenind în Access, în tabelul în format Design View, pe următorul rând, sub 
nrchest, vom introduce în coloana Field Name d1, iar în coloana Data Type 
selectăm Number. Revin la modul de formatare a chestionarului. Chestionarul 
este folosit pentru că vrem să calculăm anumite statistici. Statisticile pe care vrem 
să le calculăm constituie o decizie pe care, teoretic, cercetătorul o ia înainte de 
a trimite chestionarul în teren. Astfel, vă asiguraţi că se vor culege informaţiile 
de care aveţi nevoie pentru a răspunde la întrebarea de cercetare. Pentru că sta- 
tisticile se calculează folosind numere, atunci, în chestionar, când folosiţi aplicarea 
faţă în faţă cu un operator de teren, din punctul meu de vedere, este obligatoriu 
să notati codurile atribuite variantelor de răspuns : 





















































Corect Incorect 

D1. Sexul: 1. Sexul: 

1. masculin LJ masculin 

2. feminin L feminin 

D4. Statutul ocupational : 4. Statutul ocupational : 

1. salariat [|] salariat 

2. pe cont propriu LI pe cont propriu 

3. patron LJ patron 

4. zilier [C zilier 

D26. Cum caracterizați calitatea transportu- |26. Cum caracterizați calitatea transportului 
lui în comun în localitatea dvs: în comun în localitatea dvs: 
1. foarte proastă LI foarte proastă 

2. proastă LI proastă 

3. satisfăcătoare L] satisfăcătoare 

4. bună [C] bună 

5. foarte bună L foarte bună 

Sursa : chestionarul Diagnoza calităţii vieții în România 2010, ICCV. 











Dacă nu notăm codurile, atunci operatorul de introducere a datelor va trebui 
fie să aloce mult timp înainte de a trece la introducerea efectivă, pentru notarea 
pe chestionare a codurilor aferente fiecărei variante de răspuns, fie să fie atent 
ca la fiecare variabilă să introducă corect codul. Se pierde, astfel, timp preţios 
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şi creşte riscul apariţiei erorilor de introducere. O altă eroare de redactare 
observată în acest exemplu este atribuirea numelor exclusiv sub formă de număr : 
în loc de D1, D4 sau D26 (am păstrat numerotarea din chestionar), cercetătorul 
a atribuit doar 1, 4 sau 26. 

Tipul de variabilă (Data Type) depinde de caracteristicile informaţiilor 
conţinute. De regulă, introducem numere şi, uneori, text. Pentru fiecare variabilă 
definită în Design View trebuie să alegem un set de proprietăţi, dintre care le 
prezint pe cele mai importante : 


e Field Size. De regulă, vom alege între Byte, Integer sau Long Integer. 
Diferenţa dintre ele constă în numărul de cifre pe care le poate avea valoarea 
introdusă. 

e Default value. Dacă operatorii de teren ar lucra perfect la aplicarea chestio- 
narelor, atunci toate celulele din baza de date ar avea informaţii conform 
instrucţiunilor chestionarului. Adică ar fi introduse fie răspunsurile valide, fie 
codurile pentru nonrăspuns. Nonrăspunsul este de trei tipuri: respondentul 
refuză să răspundă, respondentul nu ştie să răspundă sau întrebarea nu trebuie să 
îi fie aplicată respondentului. Acestea primesc coduri speciale, diferite semnificativ 
ca formă de codurile valide. Cele mai utilizate în România sunt 97 = Nu este 
cazul (NC), 98 = Nu ştiu (NS), 99 = Nu răspund (NR). Există situaţii în 
care trebuie să le transformăm. De exemplu, o femeie nu vrea să îşi declare 
vârsta. Operatorul de teren ar trebui să noteze pe chestionar codul 99. Dar 99 
poate fi o vârstă validă. Atunci, echipa de cercetare, sub îndrumarea celui 
care face designul bazei de date, ar putea să instruiască operatorul să noteze 
pe chestionar codul 999. Aceasta nu mai este o vârstă validă. Dar, dacă ne 
gândim la salariul lunar, 999 lei poate fi un salariu valid. Atunci, codul de 
nonrăspuns ar putea deveni -1. Acesta nu mai este un salariu valid. Ideea este 
să folosim un cod cu totul diferit de variantele de răspuns valide. Punând unul 
dintre aceste coduri ca Default Value, îi spunem programului să introducă singur 
valoarea respectivă. În acest mod, ne asigurăm că am definit un răspuns uşor 
de înţeles, când începem analiza statistică. Dacă lăsăm celula goală în tabel, în 
această fază, s-ar putea să nu mai ştim ce am vrut de fapt să simbolizeze : este 
o lipsă de răspuns, este o scăpare a operatorului de introducere etc.? Alegerea 
codului pentru Default Value depinde de tipul întrebării. Dacă răspunsul la 
întrebare nu depinde de un filtru, atunci vom folosi codul 99 (NR). Dacă răs- 
punsul la întrebare depinde de un filtru, atunci vom folosi codul 97 (NC). 

e Validation Rule. În acest câmp, introducem o condiţie prin care instruim 
programul să accepte doar codurile valide înregistrate în chestionar. De 
exemplu, la dl avem trei coduri valide: 1 = masculin, 2 = feminin şi 99 = 
nu răspund. În practică, ultimul cod nu este acceptabil, pentru că operatorul 
trebuie să vină cu informaţii complete măcar la variabilele sociodemografice 
esenţiale. Aşadar, regula noastră de validare va fi „1 Or 2 Or 99”. Practic, îi 
spunem programului să primească doar codurile 1, 2 sau 99. Dacă introducem 
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codul 3, nu ne va permite să mergem mai departe, deci trebuie să corectăm regula 
de validare. În chestionarul DCV 2010, la variabila D26, avem cinci variante de 
răspuns care au primit coduri de la 1 la 5. Am putea scrie „1 Or 2 Or 3 or 4 Or 
5 or 99”. Dar, mai simplu, putem scrie: „Between 1 and 5 Or 99”. 

e Validation Text. Aici putem, optional, să punem un mesaj ajutător pentru 
operatorul de introducere. De exemplu : „Variantele corecte sunt 1, 2 sau 99”. 
Operatorul va identifica mai repede eroarea pe care a realizat-o. 


Să recapitulăm luând un exemplu care include şi un filtru în chestionar. După 
precizarea genului, în DCV 2010, respondentul este rugat să declare care este 
ocupaţia sa principală actuală. Această variabilă are numele d2, zece variante de 
răspuns, fiecare având un cod unic şi două tipuri de filtre: 






































1. agricultor 

2. muncitor (meseriaş) 

3. tehnician, maistru, funcţionar 

4. ocupaţie cu studii superioare 

5. altă ocupaţie — |Care? 

6. elev, student — | Daca 6, sari la întrebarea d6. 
7. pensionar — | Daca 6, sari la întrebarea d6. 
8. casnică — | Daca 6, sari la întrebarea d6. 
9. acum sunt somer — | Daca 6, sari la întrebarea d6. 
10. patron 








Ordinea variabilelor din tabel trebuie să respecte ordinea variabilelor din baza de 
date. Aşadar, următorul rând in Design View, după d1, va deveni d2. La Default 
Value vom introduce 99. La Validation Rule vom scrie „Between 1 And 10 Or 99”. 
La Validation Text vom scrie „Poţi introduce doar coduri între 1 şi 10 sau 99”. 

Dacă respondentul alege una dintre variantele 1, 2, 3, 4 sau 10, atunci i se va 
adresa întrebarea următoare : d3. „Din ce an aveţi această ocupaţie ? ”. Dacă respon- 
dentul alege varianta 5, atunci va trebui să completeze răspunsul la întrebarea „Care? ”. 
Dacă respondentul alege una dintre variantele 6, 7, 8 sau 9, atunci întrebările d3, d4 
şi d5 nu i se aplică şi se trece direct la întrebarea d6. Cele trei întrebări nu i se aplică, 
pentru că se referă la ocupaţie. Aşadar, avem mai multe filtre care trebuie definite şi 
în baza de date. Folosim filtre în baza de date pentru a grăbi procesul introducerii : 
introducând valoarea automată 97 la variabilele corespunzătoare, putem sări peste 
acestea, scutind timp pe care îl putem aloca analizei statistice propriu-zise. 

Nu definim filtrele în tabel, ci în formular. Formularul va fi elaborat după ce a 
fost finalizat tabelul. Adică definim toate variabilele şi proprietăţile lor în tabel, salvăm 
şi abia apoi trecem la formular. Acum ardem etapele doar în scop didactic. 

Să presupunem, aşadar, că am finalizat tabelul introducând toate variabilele 
din chestionar. Formularul este inserat şi deschis tot în formatul Design View. 
În principiu, toţi aceşti paşi sunt intuitivi în interfaţa programului, motiv pentru 
care nu mai insist aici. Am creat formularul care conţine toate variabilele din 
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tabel. Am putea să îi aducem tot felul de îmbunătăţiri estetice, dar aceasta este 
o chestiune de gust, şi nu de o necesitate imperioasă. Introducerea filtrelor este 
însă foarte importantă. 

Primele două filtre se stabilesc pentru variabila d2 : 


e dacă respondentul răspunde cu 5 la d2, atunci programul trebuie să meargă 
la variabila „Care? ”. 

e dacă respondentul răspunde cu 6, 7, 8 sau 9, atunci programul trebuie să sară 
peste calupul de întrebări dintre d2 şi d6, mergând direct la d6. 


În chestionar, variabila „Care ?” nu a primit un nume cum ar fi d1, d2, d3 etc. 
Această situaţie poate fi remediată uşor în program introducând în tabel numele 
„d2care”. Pentru că respondentului i s-a cerut să precizeze cu propriile lui cuvinte 
ce ocupaţie are, răspunsurile sunt înregistrate sub formă de text. În câmpul Data 
Type alegem fie Text, fie Memo. Opţiunea între Text şi Memo depinde de 
numărul de caractere care va fi introdus. Pentru simplitate, eu prefer să le definesc 
pe toate Memo. La Default Value am introdus 97 pentru că această întrebare se 
aplică doar celor care au ales codul 5 la d2. Pentru cei care au ales codurile 1-4, 
respectiv 6-10, această întrebare nu se aplică. 

În formular, intrăm în modul Design View. Mergem la d2 si dăm click dreapta 
pe celulă (nu pe etichetă). Alegem opţiunea Properties. Se va deschide o fereastră 
din care, pentru această situaţie, ne interesează tabul Event. Din tabul Event ne 
interesează rândul On Exit. Practic, acest eveniment instruieşte programul să 
aleagă o acţiune în funcţie de codul introdus în d2 atunci când apăsăm tasta Tab 
sau tasta Enter, adică trecem la următoarea variabilă din bază. În rândul On Exit 
selectăm Event Procedure, apoi dăm click pe cele trei puncte din dreapta celulei. 
Se deschide o fereastră de cod. Între Private sub... şi End sub, trebuie să 
introducem sintaxa : 

If Me![d2] = 1 Then 
Me! [d3].SetFocus 
ElseIf Me! [d2] = 2 Then 
Me! [d3].SetFocus 
ElseIf Me! [d2] = 3 Then 
Me! [d3].SetFocus 
ElseIf Me! [d2] = 4 Then 
Me! [d3].SetFocus 
ElseIf Me! [d2] = 5 Then 
Me! [d2care].SetFocus 
ElseIf Me! [d2] = 6 Then 
Me! [d6].SetFocus 
ElseIf Me! [d2] = 7 Then 
Me! [d6].SetFocus 
ElseIf Me! [d2] = 8 Then 
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Me! [d6].SetFocus 

ElseIf Me! [d2] = 9 Then 
Me! [d6].SetFocus 

ElseIf Me! [d2] = 10 Then 
Me! [d3].SetFocus 

ElseIf Me ! [d2] = 99 Then 
Me! [d6]. SetFocus 

End If 





Această sintaxă instruieşte programul să respecte filtrele : 


e dacă la d2 primeşte codurile 1-4 sau 10, să treacă la variabila d3 pentru că 
aceasta se aplică acestor respondenţi ; 

e dacă la d2 primeşte codul 5, să treacă la variabila d2care, pentru că aceasta 
se aplică acestor respondenţi ; 

e dacă la d2 primeşte codurile 6-9 sau 99, să meargă la variabila d6, pentru că 
aceasta se aplică acestor respondenţi. Trebuie să definim condiţia şi pentru 
codul de nonrăspuns. 


Salvăm şi închidem fereastra de cod. Ne întoarcem în formular (nu uităm că 
tabelul este finalizat deja şi nu mai intervenim în el, decât în situaţii excepţionale) 
şi continuăm cu celelalte variabile, dacă este cazul. 

În formular, în modul Design View, putem modifica şi estetica formularului. 
Putem introduce etichete pentru calupuri de întrebări, săgeți ajutătoare pentru operator 
etc. Mai important mi se pare să avem în vedere că responsabilul cu elaborarea bazei 
de date poate lucra cu o versiune mai nouă/veche a programului, iar operatorii de 
introducere cu una mai veche/nouă a acestuia. Acesta trebuie să asigure compatibi- 
litatea între versiuni. De preferat ar fi să se lucreze pe aceeaşi versiune. 

Din punct de vedere estetic, mi se pare important ca formularul să aibă 
variabilele dispuse în aşa fel încât să încapă pe o jumătate de ecran. Prefer ca 
introducerea să decurgă de sus în jos, adică variabilele să fie una sub alta: 














Varianta preferată de mine Variantă posibilă 
dl d3 dl £ |d2 
V d2 d4 _ d2care £ |d3 
d2care is d4 £ |d5 
































După ce am realizat formularul şi am introdus toate condiţiile, trebuie să 
verificăm dacă am lucrat corect. Acest lucru se face simplu, după cum am discutat 
şi la Excel, introducând în celulele formularului valori ce nu se regăsesc printre 
răspunsurile valide sau care nu sunt coduri de nonrăspuns. Vom observa imediat 
dacă filtrele funcţionează sau nu. 
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2.2. Cum ducem datele în SPSS? 


Am încheiat introducerea datelor. Trebuie să trecem la etapa de curăţare a bazei 
de date, pe care o realizăm în SPSS. Aşadar, trebuie să ducem datele din formatul 
dar, pentru că „paza bună trece primejdia rea”, prefer ca, mai întâi, să vizualizez 
datele în Excel, iar din Excel să le duc în SPSS. 

Din Access ducem datele în Excel astfel : 


e selectăm tabelul pe care dorim să îl exportăm in Excel, 

e deschidem meniul File > Export, 
în fereastra care se deschide, la secţiunea Save as type alegem unul dintre 
formatele Excel, de exemplu, Microsoft Excel 97-2002, dacă lucrăm cu 
versiunea 2002 a Access, 

e denumim tabelul în modul dorit şi apăsăm tasta Enter sau butonul Export. 


Acum datele sunt în formatul Excel. Pentru a evita erorile generate de modul 
cum tratează SPSS informaţia venită din alte programe, mai ales în versiunile mai 
vechi, recomand să verificaţi dacă : 


e primul rând din Excel conţine numele variabilelor, iar numele respectă con- 
ditiile enunțate în acest capitol ; 

e toate numerele din celule sunt tratate de Excel ca fiind numere. Pentru 
siguranţă, putem selecta variabilele care conţin numere (coloanele din Excel) 
dând click dreapta pe numele coloanei şi selectând Format Cells. În fereastra 
care se deschide, în tabul Number, la secţiunea Category alegem Number. 
De regulă, mai ales în versiunile noi, SPSS citeşte corect informaţia din Excel, 
aceasta fiind o măsură de precauţie. 


Suntem pregătiţi să ducem datele în SPSS. Pentru exemplificare, voi folosi 
date din DCV 2010. În SPSS pot fi importate baze de date salvate şi în alte formate 
(de exemplu, fişierele care au extensia .csv sunt deseori folosite de analişti) sau 
chiar în formatul specific altui program de statistică cum ar Stata (fişiere cu 
extensia .dta). SPSS citeşte şi aceste extensii. Lista completă a formatelor 
recunoscute de SPSS poate fi găsită în documentaţia programului. Mai poate fi 
utilizat un program comercial, Stat Transfer, care este dedicat acestui gen de 
operaţiuni. Flexibilitatea este destul de ridicată în domeniul programelor statistice, 
odată ce ajungi să te familiarizezi cu limbajul acestora. 

Deschidem programul şi mergem în meniul File > Open > Data. În fereastra 
care se deschide, selectăm locul unde am salvat tabelele în format Excel. Apoi, 
în secţiunea Files of type, alegem Excel (*.x1s, .xIsx, .xIsm). Initial, este selectat 
SPSS Statistics (*.sav). Selectăm tabelul Excel pe care vrem să îl importăm in 
SPSS (figura 2.7). 
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Figura 2.7. Importarea datelor din formatul Excel în formatul SPSS. 
Selectarea fişierului Excel 





iai Open Data X| 


Look in: | import excel in spss ~| @ CF Re 


36) 01 thi2.xis 








File name: 01 tbl xls 
Files of type: | Excel (+ xI8, *.xlsx, *.xlsm) k 


Cancel 





[C] Minimize string widths based on observed values 


Retrieve File From Predictive Enterprise Repository... 








După ce apăsăm butonul Open, se va deschide fereastra din figura 2.8. Aici 
trebuie să selectăm foaia de lucru în care sunt datele care ne interesează. De 
regulă, avem o singură foaie de lucru. Dar dacă avem mai multe şi ne interesează 
una anume, o vom selecta din listă pe cea corespunzătoare. Înainte de a apăsa 
OK, verificaţi dacă celula Read variable names from the first row of data este 
selectată. Ar trebui să fie. 

Salvăm baza de date rezultată (apăsăm simultan tastele CTRL + S). 


Figura 2.8. Importarea datelor din formatul Excel în formatul SPSS. 
Selectarea foii de lucru care conţine datele 


hr- Opening Excel Data Source 





C:\Documents and Settings'studentiDesktopiimport excel in spss01 tbl1 xl 


ca 

neice 
r II 
Maximum width for string eolumns: 
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Repetăm aceşti paşi ori de câte ori este nevoie. De exemplu, la DCV 2010 au 
introdus chestionare mai mulţi operatori. Întrucât chestionarul utilizat are multe 
variabile, dată fiind complexitatea temei, a fost nevoie de două tabele în Access 
care cuprindeau, separat, aproximativ jumătate din chestionar. Aşadar, avem de 
importat în SPSS două baze de date în Excel de la fiecare operator pentru fiecare 
dintre cei şase operatori. Rezultatul final al procesului de importare trebuie să 
fie o singură bază de date în SPSS. De aceea, trebuie să parcurgem următoarele 
etape : 


e urmând paşii descrişi anterior, importăm din Excel în SPSS, pentru fiecare 
operator, cele două baze de date : una cu prima parte a chestionarului şi una 
cu a doua parte a chestionarului ; 

e în cazul fiecărui operator, vom uni în SPSS cele două baze pentru a avea o 
singură bază, adică întregul chestionar. Rezultă, astfel, şase baze în SPSS 
pentru toţi operatorii ; 

e în fine, vom uni în SPSS cele şase baze într-una singură. Aceasta este baza 
pe care vom realiza procesul de curăţare. 


Să le luăm pe rând. Pentru operatorul M, avem două baze în SPSS. La fel 
pentru operatorul A, D, E etc. Mai întâi, vom lucra cu cele două baze ale 
operatorului M. Aceste baze au aceiaşi respondenţi, dar variabile diferite. Am 
afirmat mai sus că a fost nevoie să impartim chestionarul in Access, dat fiind 
numărul mare al variabilelor din chestionarul complex. Pentru a uni aceste 
două baze, folosim meniul Data > Merge Files > Add Variables. Obligatoriu, 
ambele baze vor avea o variabilă de identificare care ia valori unice pentru 
fiecare respondent. Fără ea, unirea nu se poate face corect. Aici, această 
variabilă este numărul chestionarului care, în ambele baze de date, poartă 
numele nrchest. Deschidem ambele baze de date în SPSS. Primul lucru pe 
care îl facem este să ordonăm bazele de date, în aceeaşi direcţie, crescător, 
după nrchest: Data > Sort Cases > trecem nrchest în dreapta folosind 
săgeata > lăsăm bifat Ascending > OK (figura 2.9). Mai rapid, putem să 
deschidem Data View, dăm click dreapta pe numele variabilei nrchest şi 
selectăm Sort Ascending. Salvăm ambele baze de date (apăsăm simultan 
tastele CTRL + S). 

Acum putem tine deschise ambele baze de date sau doar pe cea in care 
aducem noile variabile. Voi explica cum procedăm pentru prima variantă. 
Deschidem baza primară în meniul Data > Merge Files > Add Variables. Se 
deschide fereastra din figura 2.10. Selectăm cea de-a doua bază. Dacă această 
bază nu era deschisă, trebuia să selectăm An external SPSS Statistics data file 
şi să căutăm pe computer unde este salvată. Apăsăm Continue. În fereastra 
care se deschide, bifăm Match cases on key variables in sorted files, trecem 
nrchest în căsuţa Key Variables şi apăsăm OK. Programul ne va avertiza că 
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trebuia să ordonăm ambele baze de date după variabila-cheie, aici nrchest. Din 
acest moment, datele din cele două baze se află într-una singură. Dacă dorim să 
păstrăm bazele iniţiale şi să avem separat baza unită, atunci va trebui să salvăm 
rezultatul sub o altă denumire. 


Figura 2.9. Ordonarea cazurilor: după o variabilă, de la valorile mici 
la valorile mari 


sai Sort Cases x| 





Ou 
E a2 


da d2_5alta 


OB 


E d4 Sort Order 


L (3) Ascending 
oa d5_7altele 






©) Descending 


Figura 2.10. Unirea a două baze cu aceiaşi respondenţi şi variabile diferite 





| i Add Variables to 01 tbl1_sav[DataSet 1] X| 





Select a dalaset from the list of open datasets or from a file to merge with the active dataset 
(3) An open dataset 





O An external SPSS Statistics data file 








| | Browse 
Non-SPSS Statistics data files must be osened in SPSS Statistics before they can be used as part of a merge. 


Due caca ee 
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wat Add Variables from 01 tbl2 sav[DataSet2] x| 
Excluded Variables: New Active Dataset: 
a ate) 


d2(*) 
d2_5alta=(*) 


d3(*) 
d5(*) 
d5_7altele=(*) 


Rename... d6_8altele<(*) 


àl Match cases on key variables in sorted files! 


(9) Both files provide cases 
: Is 
() Non-active dataset is keyed table J 


()) Active dataset is keyed table 














Key Variables: 























[C] indicate case source as variable: 0 


(*)=Active dataset 
(+)=01 tbl2.sav[DataSet2] 


| ok || paste || Reset Jl Cancel || Hep | 


Excluded Variables: New Active Dataset: 




















di) 
d2(*) 
d2 Saltas{*) 
wrens! 
| dac*) 
d5(*) 
d5_7altele=(*) 
d6(*) 
d6_8altele=(*) 


Rename 











F i 
Match cases on key variables in sorted files Key Variasies: 





(3) Both files provide cases [+] 


© Non-active dataset is keyed table 








© Active dataset ie keyed table 


[_| Indicate case source as variable: |5041 C801 


(*)=Active dataset 
(+)=01 tbl2 sav[DataSet2] 


Paste Reset Cancel Help 














Realizăm această operaţie pentru toţi cei şase operatori de introducere. 

După ce am încheiat activitatea, trebuie să unim cele şase baze de date 
rezultate. De data aceasta, variabilele sunt aceleaşi, însă diferă respondentii. Vom 
uni loturi de respondenţi sau, altfel spus, de chestionare. Vom utiliza meniul 
Data > Merge Files > Add cases. 
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Deschidem baza de date primară, cea în care adăugăm restul de cazuri. În cazul 
nostru, am denumit operatorii folosind numere, pentru a nu ne încurca în denumiri : 
baza operator 01.sav, baza operator 02.sav etc. Voi utiliza, ca bază primară, baza 
primului operator. O deschidem şi o ordonăm ascendent cazurile în funcţie de 
variabila de identificare, nrchest. Deschidem baza de date a următorului operator. 
Ordonăm ascendent. Salvăm ambele baze, după această operaţie (apăsăm simultan 
tastele CTRL + S). Apoi revenim la baza primară, fără să o inchidem pe cealaltă. 
Mergem în meniul Data > Merge Files > Add cases. Se deschide fereastra din 
figura 2. 1la. Selectăm baza pe care dorim să o adăugăm în baza primară. 


Figura 2.11. Unirea a două baze cu respondenţi diferiţi şi aceleaşi variabile 


(a) 
i Add Cases to baza operator 01 sav[DataSet 3] X| 


Select a dataset from the list of open datasets or from a file to merge with the active dataset 
G) An open dataset 





©) An external SPSS Statistics data file 








"Continue Ht Cancel | Help 











(b) 
ai Add Cases From baza operator 02 sav[DataSet2] 
Unpaired Variables: Variables in New Active Dataset: 
d2_Salta>(*) nrchest = 
d2_Salta>(+> di 
d2 
9 | d3 
—— d4 
[Par d5 
d5_7altele» 
d6 
d6_Saltele= = 
laz 














[C] Indicate case source as variable: 


| Rename [eourea 








(*)=Active dataset 
(+)=baza operator 02 sav[DataSet2] 


| OK || Paste I| Reset | 





Cancel | | Help 
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(c) 
iat Add Cases From baza operator 02 sav[DataSet2] X| 


Unpaired Variables: Variables in New Active Dataset: 
nrchest 

d1 

d2 

| 3 d2_5alta> 

d3 

C] fe 
5 
d5_7altele> 


d6 
lic Salala» 























CT Indicate case source as variable: 





| Rename [sourceo1 | 





(*)=Active dataset 
(+)=baza operator 02.sav[DataSet2] 


| ok || paste || Reset || cancel || Help | 








Dacă în secţiunea Unpaired Variables (figura 2.11b) apar variabile, înseamnă 
că nu putem continua unirea. Variabilele care apar în această fereastră au propri- 
etati diferite în cele două baze care trebuie unite. Proprietăţile variabilelor pot fi 
vizualitate în Variable View. Renunţăm momentan la unire şi căutăm sursa 
problemei. În Variable View, pentru d2_5alta, în baza operator 01.sav, în coloana 
Width observăm valoarea 765, iar în baza operator 02.sav, observăm valoarea 
1000 (figura 2.12). Aceasta este o variabilă care conţine text, mai exact, răspunsul 
la întrebarea „Care ocupație?” adresată celor care au ales răspunsul „Altă 
ocupaţie” la d2, „Ocupaţia dvs principală (actuală)”. Situaţia se poate repeta 
pentru toţi operatorii de introducere a datelor. De aceea, înainte de a încerca să 
unim bazele de date, trebuie să ne uităm în fiecare, in Variable View la ce scrie 
în dreptul variabilelor desperecheate (unpaired). Alegem o valoare comună pentru 
toate cele şase baze, şi anume pe cea mai mare. Operăm modificările şi revenim 
în meniul de unire. Dacă am lucrat corect, atunci celula Unpaired Variables ar 
trebui să fie goală (figura 2. 11c). Apăsăm OK. Repetăm operaţia, până unim toate 
cele şase baze de la cei şase operatori. 


Figura 2.12. Variabile cu proprietăţi diferite (coloana Width din Variable View) 
































Name Type Width | Name Type Width 
1 nrchest Numeric 8 : 1 nrchest Numeric 8 
2 d1 Numeric 8 f 2 d1 Numeric 8 
3 d2 Numeric 8 E 3 d2 Numeric 8 
4 d2_5alta String 765 E | 4 |d2_5alta String 1000 [3 
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Din acest moment, putem începe operaţiunea de curăţare şi de validare a bazei 


de date, acesta fiind subiectul capitolului 4. 


2 


.3. Exercitii 


Pentru aceste exerciții, utilizăm baza de date şi/sau chestionarul World Values 
Survey 2012 rezultate în urma aplicării chestionarului în România. Baza de date 
poate fi descărcată de pe pagina de internet a Grupului Românesc pentru Studiul 
Valorilor Sociale (http : //www.romanianvalues.ro). 


„ Deschideţi chestionarul WVS 2012. Alegeţi, la întâmplare, două pagini din 


chestionar. Răspundeţi la întrebările de pe aceste două pagini. 


. Realizati in Excel o bază de date care să corespundă acestor două pagini de 


chestionar. 


. Introduceţi răspunsurile dvs. în baza de date pe care ati creat-o. 
. Importati baza de date in SPSS. 


Rugati un coleg să vă răspundă la cele două pagini de întrebări selectate anterior. 


. Introduceţi răspunsurile colegului într-o bază de date diferită de cea in care 


se află răspunsurile dvs. 


. Importati baza de date cu răspunsurile colegului în SPSS. 
. Uniti cele două baze de date. 
„ Alegeţi la întâmplare alte două pagini din chestionar. Răspundeţi la întrebările 


de pe aceste două pagini. Rugati acelaşi coleg să vă răspundă şi la aceste 
întrebări. 


10. Realizaţi în Excel o bază de date care să corespundă acestor două pagini din 
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chestionar. 
. Introduceţi în baza de date creată răspunsurile dvs. şi ale colegului dvs. 


12. Importaţi baza de date in SPSS. 
13. Uniti această bază de date cu cea obţinută anterior în SPSS. 


3. Gestionarea bazei de date 


Manipularea şi gestionarea bazei de date presupun un set de cunoştinţe indis- 
pensabile analistului. Acesta trebuie să ştie cum se ponderează (weighting) o bază 
de date, cum se filtrează (select cases) sau le separă (split file), cum se agregă 
(aggregate) sau se restructurează (restructure) etc. 

Pentru începători, cred că cele mai importante operaţiuni sunt cele de ponderare, 
filtrare şi separare. Meniurile aferente acestora şi pe care le discut în acest capitol 
sunt: Data > Weight Cases, Data > Select Cases şi Data > Split File. 

Ponderarea se referă la ajustarea bazei de date astfel încât structura eşantionului 
pentru variabile-cheie să fie similară cu structura populaţiei din care a fost extras 
acesta şi pentru care dorim să facem inferente. Filtrarea este folosită atunci când 
dorim să lucrăm doar cu anumite cazuri din baza de date sau să realizăm o nouă 
bază de date, mai restrânsă decât cea iniţială. Separarea este folosită atunci când 
dorim să rulăm o analiză pentru grupuri diferite şi să comparăm rezultatele într-o 
singură fereastră. 

Mai întâi vom prezenta câteva setări ale programului care ni se par utile pentru 
că vă ajută să vizualizati mai bine informaţia conținută în baza de date atunci 
când consultaţi Outputul. 


3.1. Câteva setări elementare (Edit > Options) 


SPSS este apreciat, printre altele, pentru că are o interfaţă simplă care îi permite 
utilizatorului să găsească rapid lucrurile de care are nevoie. În această secţiune, 
prezint câteva setări care cresc uşurinţa cu care se poate utiliza interfaţa. Aceste 
setări pot fi accesate şi modificate în meniul Edit > Options. Figura 3. la prezintă 
fereastra care apare când deschidem acest meniu. Fiind un program complex, şi 
opţiunile sunt numeroase. Aspectul pozitiv este că ne sunt permise destul de multe 
intervenţii în opţiunile programului, astfel încât să îl putem ajusta conform 
nevoilor şi preferințelor noastre. Cele la care mă opresc sunt preferinţele la care 
am ajuns în timp utilizând programul. Aţi putea avea şi altele pe măsură ce 
dobanditi experienţă cu programul. 

Dintre taburile de opţiuni, ne interesează următoarele: General, Output 
Labels, Pivot Tables, File Locations şi Syntax Editor. 
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În tabul General, la secţiunea Variable Lists, bifăm Display names. Iniţial, 
este bifat Display labels. Această operaţiune va permite ca, atunci când deschidem 
meniurile de analiză, să observăm în lista de variabile numele în locul etichetei 
(label). Putem observa diferenţa în figura 3.1b care prezintă meniul Analyze > 
Descriptive Statistics > Frequencies. În ceea ce mă priveşte, când deschid 
meniul pentru analize, atunci când văd numele, nu eticheta, îmi este mult mai 
uşor să găsesc variabilele în lista de variabile. De altfel, putem căuta rapid, după 
nume, orice variabilă : dăm click în lista de variabile (coloana din stânga) şi tastăm 
rapid primele două-trei caractere din numele acesteia. În versiunile mai noi de 
SPSS, putem trece foarte uşor, chiar în interiorul ferestrelor de analize, între 
nume şi etichete. Mergem în lista de variabile, dăm click dreapta pe oricare 
variabilă şi alegem Display Variable Names sau Display Variable Labels, în 
funcţie de preferinţe şi nevoi (figura 3.1c). 


Figura 3.1. Setări care cresc uşurinţa de utilizare a programului. Tabul General 
(a) 
ia: Options X| 


Multiple Imputations | Syntax Editor | 
General Viewer | Dala Currency Output Labels | Charts | Pivot Tables File Locations Scripts 
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© Display labels} ©) Display cames [_] No scientific notation for small numbers in tables 
Measurement System: | Inches x J 
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[C] Open only one dataset at a time 
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(b) 
as Frequencies 
Variable(s): 
E 
: Za E 
® ocupatia dvs. actual... a2 
E din ce an aveti acea... S a 
®& statutul ocupational [... bu | > 
> domeniul de activitat... bos 
da domeniul de activitat... Gh 5_7ettele 
all pregatirea scolara [d6] a ma 
4» nationalitatea [7] E Qua E 
[V] Display frequency tables [Z Display frequency tables 
| OK | Pasi OK | Paste | Reset Cancel Help 
(c) 
„ai Frequencies X| 


Variable(s): 





e Display Variable Names 


Display Variable Labels 





Sort Alphabetically 
Sort By File Order 


Sort By Measurement Level 











Variable Information... 





[K] 


Display frequency tables 


| OK | Paste | Reset Cancel Help 








În tabul Output Labels (figura 3.2a) vom selecta, pentru fiecare dintre cele 
patru câmpuri din secţiunile Outline Labeling şi Pivot Table Labeling, ambele 
variante : Names and Labels, respectiv Values and Labels. Făcând acest lucru, 
în Output vor fi afişate, simultan, atât numele, cât şi eticheta variabilei, respectiv 
codurile şi etichetele codurilor atribuite variantelor de răspuns. În figura 3.2b 
este prezentat rezultatul ambelor opţiuni. În al doilea tabel, după ce am modificat 
opţiunile respective, observăm atât numele, cât şi eticheta variabilei, odată cu 
codurile şi etichetele atribuite acestora. 
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Figura 3.2. Tabul Output Labels (Edit > Options): două tipuri de vizualizare în Output 












































(a) 
Multiple Imputations | Syntax Editor | Multiple Imputations | Syntax Editor 
General viewer | Data | Curre General | Viewer | Data | Currency | Output Labels 
-Outline Labeling pOutline Labeling 
Variables in item labels shown as: Variables in item labels shown as: 
Labels v | | [Names and Labels v ] 
Variable values in item labels shown as: Variable values in item labels shown as: 
Labels w | [Values and Labels v 
Pivot Table Labeling — pPivot Table Labeling — 
Variables in labels shown as: | Variables in labels shown as: 
fı ahela X Names and Labels = 
variable values in labels shown as: | Variable values in labels shown as: 
| 
[Labels h {Values and Labels >) 











La | œ Jí Cancel || £ 


(b) 


ocupatia dvs. actuala (principala 


Frequency | Percent | Valid Percent Cumulative 
Percent 


agricultor 

muncitori (meserias) 
tehnician, maistru, 
functionar 


ocupatii cu studii 


superioare 

elev, student 
pensionar 
casnica 

acum sunt somer 
patron 

Total 
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d2 ocupatia dvs. actuala (principala 


Frequency | Percent Valid Cumulative 
Percent Percent 


Valid 1 agricultor 
2 muncitori 
(meserias) 
3 tehnician, maistru, 
functionar 
4 ocupatii cu studii 
superioare 
6 elev, student 
7 pensionar 
8 casnica 
9 acum sunt somer 
10 patron 
Total 














În tabul Pivot Tables (figura 3.3a) prefer să selectez, în secţiunea TableLook, 
opţiunea Boxed. Tabelul va avea toate celulele delimitate prin borduri. Acest lucru 
ne ajută, mai ales la tabelele mari, adică cu multe rânduri şi coloane, să citim 
mai bine informaţia conținută de acestea. În figura 3.3b se observă diferenţa faţă 
de modul de prezentare a tabelului din figura 3.2b. Această opţiune este utilă în 
timpul analizelor. În rapoarte, articole, cărţi sau alte materiale, nu vom copia 
tabelele din SPSS ca atare, ci le vom realiza în programul de editare a textului 
pe care îl folosim. Multe tabele oferite de SPSS conţin informaţii ce nu trebuie 
prezentate ca atare pentru cititor, acestea fiind utile în special analistului. De 
aceea, aceste informaţii trebuie eliminate sau prezentate în altă formă în cadrul 
materialului. Putem învăţa să realizăm tabele uşor de citit, dacă parcurgem câteva 
articole publicate în jurnalele academice din domeniul care ne preocupă. O regulă 
de bază este : un tabel simplu este uşor de citit. Dacă acesta conţine însă informaţii 
mai tehnice, atunci punem o notă imediat sub tabel în care explicăm cititorului 
cum trebuie să citească. 

În tabul File Locations, la secţiunea Startup Folders for Open and Save 
Dialogs, prefer să bifez Last folder used (figura 3.4). O bază de date în format 
SPSS sau un fişier creat în acest program pot fi deschise fie dând dublu click pe 
fişier, fie din meniul File > Open > Data. O analiză poate dura mai multe zile, 
în funcţie de complexitatea sa. În a doua zi de lucru, optez pentru a doua variantă 
de deschidere a fişierului. Dacă bifăm Last folder used, atunci, mergând în File 
> Open > Data, programul ne va duce la ultimul fişier utilizat în ultima sesiune 
de lucru în acest program. Acest lucru este util pentru cei care au multe fişiere 
pe computer şi, printre acestea, unul dedicat analizelor statistice, fişierul respectiv 
fiind astfel mult mai rapid de găsit la nevoie. Tot în acest tab, în secţiunea Session 
Journal, ne asigurăm că sunt bifate opţiunile Record syntax in Journal şi Append. 
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Programul înregistrează toate operaţiunile noastre. Dacă pierdem sintaxa, şter- 
gând-o din greşeală, o vom găsi în jurnalul pe care îl ţine SPSS. Acest jurnal 
poate fi salvat în fişierul predefinit de program sau într-un altul, ales de noi. 


Figura 3.3. Tabul Pivot Tables (Edit > Options): modificarea designului tabelelor 


(a) 
îi Options x) 
Multiple mputations Syntax Editor | 
General Viewer Data | Currency Output Labels | Charts | Pivot Tables | File Locations | Scripts 


TableLook- 
C:\Program Files\SPSSInc\Statistizs17\Looks\Boxed.stt 

















Sample 


Table Tite 




















=System Default> 2 
Academic 
AvantGarde 
BlueYallowContrast 
FA dddd PEET aaaai | aaaa2 aaaal 22232 
Compact dddd1 |ececilo [abea |2124 |abea | 
i | ccoc2f s86 [abea [eses abea | 
CompactAcademic group | ddda2 | covet] 105 [abed |5853 [abed | 
CompactAcademicTimesRoman — m |cccez] 11.42 |abca |205 | abea | 
CompactBoxed | dadas | ecce1] s945 | abea [20.0 | abea | 
Contrast Table Capticn 
Horizontal bt] 
Icicle v a. Text foi footnote a. 
— b. lexttoitootnote b. 
Browse... 
Set TableLook Directoy 
(b) 


Percent 


1 agricultor 





2 muncitori (meserias) 





3 tehnician, maistru, 
functionar 





4 ocupatii cu studii 
superioare 





6 elev, student 





7 pensionar 
8 casnica 





9 acum sunt somer 





10 patron 








Total 
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Figura 3.4. Tabul File Locations (Edit > Options): fişierul de lucru şi jurnalul SPSS 


at Options x| 


Multiple Imputations | Syntax Editor 
General Viewer Data | Currency | Output Labels | Charts | Pivot Tables | File Locations | Scripts 


, Startup Folders for Open and Save dialogs 
© Specified folder 
Data Files: Documents and Sett art Doc UML | 
Other Files: CiDocum rts and Sat = T = W Docu = i 


( 3 ) Last folder used! 


„Session Journal 





iv] Recore syntax in Journal 





























(3) Append © Overwrite 
| 
Journal file |C:\Documents and Settings'student'Local SettingsiTempistatistics jnl Browse... | 
Temporary Folder: [C:Documents and SettingststudentiLocal Settings\Temp\ Browse... | 
Recently used file list: ENE 











OK || Cancel | Apply || Help | 


În fine, în tabul Syntax Editor (figura 3.5a) putem modifica modul în care arată 
sintaxa atunci când lucrăm cu ea. În ceea ce mă priveşte, îmi plac culorile alese 
implicit de program. Mi se pare extrem de utilă optiunea de completare automată a 
unei comenzi care poate fi activată bifând Automatically display the auto-complete 
control (figura 3.5b). Dacă dorim să realizăm un tabel de frecvenţă ştiind că începutul 
comenzii este „fre...”, tastăm „fre...” şi ni se va deschide fereastra din care putem 
alege comanda corectă. Această opţiune este foarte utilă pentru învăţarea comenzilor 
uzuale. culorile pe care le afişează editorul sintaxei. Eu modific doar culoarea 
comentariilor, preferând un gri mai închis. În rest, sunt mulţumit de opţiunile implicite 
ale programului. 

Fereastra sintaxei are două secţiuni : în partea din stânga se află lista comenzilor, 
iar în partea din dreapta sunt toate comenzile care, rulate, ne vor da analizele dorite. 
Lista comenzilor ne ajută să navigăm prin sintaxă, când aceasta conţine multe 
comenzi. Atunci când, din greşeală, am scris o sintaxă greşită, dacă am bifat 
opţiunea Automatically open Error Tracking pane when errors are found, 
atunci, după cum se observă în figura 3.5c, se deschide o a treia secţiune care ne 
indică rândul unde se găseşte eroarea, comanda care conţine eroarea şi informaţii 
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despre eroare. In acest caz, am introdus greşit numele variabilei pentru care dorim 
să realizăm tabelul de frecvenţă : variabila v1 nu există în baza de date. 


Figura 3.5. Tabul Syntax Editor (Edit > Options): cum putem face sintaxa mai uşor 
de utilizat 


(a) 


Multiple Imputations syntax Edite 
General | Viewer | Deta | Currency | OutputLabels | Charts | PivotTables | FileLocations | Scripts 








Syntax Color Coding ——————————_,_  Auto-Complete Settings 











v] Display syntax color cocing Automatically display the auto-complete contra 


commenis Ma 
Subcommands [B] (Z) (u) (I | 
Keo [B] (3 [u) Gutter 
Veles (n) (2) (n) (e) Display line numbering 

Comments (e) (z) u [7] Display command spans 


rError Color Coding Panes 
































v| Display validation color coding {¥] Display the navigation pane 


Commands E lu) (| m] Automatically open Error Tracking pane when errors are found 


Within commands lu) (=| 


























OK | Cancel || apply || Help 





b) 


| File Edit View Data Transform Analyze Graphs Utilities Run Tools Add- 
288 m oo Oh A Pe 09 în ue 
Fk omen i R Active: |DataSet1 >| 
1) fiel 














GEHLIN 

GENLOG 

GET CAPTURE 
GET DATA 

GET SAS 

GET STATA 

GET TRANSLATE 
GET 

GGRAPH 

GLM 
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(c) 


2:3 “Syntax 1 - SPSS Statistics Syntax Editor olx] 
File Edit View Data Transform Analyze Graphs Utilities Run Tools Add-ons Window Help 


SHA E oo O23 A De® 09 în ws Fj 
te @ BW II B® active: [Dataset ~ 


FREQUENCIES: 



















Line Command Information 
1 Frequencies Error in FREQUENCIES command. 











[SPSS Statistics Processor is ready) | |In1Col15| | | 





Am prezentat şi opţiunile de la sintaxă pentru utilizatorii începători entuziaşti. 
Pentru a parcurge această lucrare nu este nevoie să lucrăm cu sintaxa. Pe măsură 
ce vă familiarizați cu programul ar fi util să incepeti să utilizaţi şi sintaxa pe lângă 
meniuri. Veţi constata că timpul acordat unei analize se reduce considerabil. În 
plus, veţi avea jurnalul întregii analize la care puteţi reveni oricând pentru referinţe. 
O parte dintre sintaxele aferente comenzilor utilizate în această lucrare pot fi 
consultate pe pagina de internet dedicată acesteia. 


3.2. Pe scurt, despre structura programului : 
Data şi Variable View 


Aceste două elemente sunt esenţiale în program : Data View, respectiv Variable 
View. Probabil că aţi înţeles care este diferenţa dintre ele. 


3.2.1. Data View 


Data View este secţiunea unde putem vizualiza datele. Dacă baza de date conţine 
informaţii culese prin aplicarea unui chestionar, atunci fiecare rând va reprezenta 
un chestionar, iar fiecare coloană va reprezenta o variabilă. O celulă conţine 
înregistrarea informaţiei pentru un singur individ cu privire la o variabilă. Dacă 
variabila conţine informaţii despre vârstă, atunci celula pentru rândul 1 va conţine 
vârsta individului de pe rândul 1. În figura 3.6a este prezentată o secţiune din 
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baza de date DCV 2010. Rândul 1 reprezintă un român căruia i-au fost puse 
întrebările din chestionarul DCV 2010. Cifra 1 din dreptul variabilei nrchest pentru 
acest rând reprezintă numărul alocat acestui chestionar de către cercetător. Observăm 
că în figura 3.6a este selectată coloana nrchest. Cifra 1 din dreptul rândului 1 şi 
coloanei dl reprezintă sexul respondentului la chestionarul cu numărul 1. De unde 
ştim ce reprezintă d1? Dar cifra 1? Vom afla proprietăţile acestei variabile în 
Variable View. Să mai zăbovim puţin asupra interfeţei Data View. 


Figura 3.6. Data View 
(a) 


File Edit View Data Transform Analyze Graphs Utilities Add-ons Window Help 


2688 § 00 BSF AWE StH Fes ¥ 








4 : nrchest 1 -0 





File Edt View Data Transform Analyze Graphs Utilities Add-ons Window Help 


Ba [E OP BE A Be SHR Ie y 















d3 






di 
salariat industr 











masculin muncitori (... 2UUb 


feminin agricultor 99 pe cont pro... agrit 

feminin agricultor 1955 pe cont pro... agric 

feminin pensionar 97 97 
masculin agricultor 99 pe cont pro... agrit 


O parte dintre meniurile SPSS vă sunt familiare pentru că includ comenzi pe care 
le folosiţi în mod frecvent în alte aplicaţii software uzuale. De exemplu, meniul File ne 
permite să deschidem documente, dar şi să le salvăm. Meniul Edit ne permite să copiem 
(copy) şi să lipim (paste) diferite elemente. Meniul Window ne permite să aranjăm 
documentele deschise astfel încât să le vizualizăm cât mai pe placul nostru. Meniul 
Help conţine o mulţime de informaţii care ne ajută să înţelegem mai bine programul. 
Acest meniu se păstrează şi când trecem în Variable View. În tabelul 3.1 sunt pre- 
zentate unele dintre cele mai utilizate comenzi, care vor fi discutate în această carte. 
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Tabelul 3.1. Meniuri frecvent utilizate 









































Meniu Submeniu Utilitate 
File New Data Realizăm o bază de date, un fişier de sintaxă sau 
New Syntax unul de output, fără informaţii în ele. 
New Output 
Open Data Deschidem o bază de date, un fişier de sintaxă sau 
Open Syntax unul de output care conţin informaţii. 
Open Output 
Save Salvăm fişierele pe măsură ce lucrăm. 
Save as Salvăm fişierele sub alt nume sau în alt loc pe computer. 
Recently Used Data Putem deschide un fişier cu care am lucrat într-o 
Recently Used Files sesiune anterioară, fără a-l mai căuta pe 
computer. 
Edit Insert Variable Putem introduce manual o variabilă căreia îi 
definim, ulterior, proprietăţile. 
Go To Case Putem să găsim rapid un rând din baza de date. 
Go To Variable Putem să găsim rapid o variabilă din baza de date, 
dacă îi ştim numele. 
Options Putem să setăm programul conform preferințelor 
personale. 
View Status Bar Activăm sau dezactivăm Status Bar. 
Value Labels Putem să vizualizăm în Data View etichetele 
atribuite codurilor (figura 3.6b). 
Variables Trecem din ecranul Data View în ecranul Variable 
View. 
Data Identify Duplicate Putem verifica daca, dupa unul sau mai multe 


Cases 


criterii, am introdus in baza de date de mai multe 
ori acelaşi caz. Acest lucru se poate întâmpla, de 
exemplu, când chestionarele sunt aplicate prin 
e-mail şi acelaşi respondent ne trimite chestionarul 
său de pe două adrese de e-mail diferite. 





Sort Cases 


Ordonăm cazurile în ordine crescătoare sau 
descrescătoare în funcţie de una sau mai multe 
variabile. Putem să ordonăm şi variante combinate. 





Merge Files 


Split File 


Unim două baze de date. Putem uni două baze care 
conţin aceleaşi cazuri, însă cu variabile diferite, 
dar şi două baze care conţin cazuri diferite, însă cu 
aceleaşi variabile. 

Separăm baza de date după un criteriu. Analiza 
rulată este prezentată în acelaşi output comparativ 
pe grupurile definite de criteriul respectiv. 





Select Cases 


Activăm sau dezactivăm anumite cazuri astfel încât 
să rulăm analizele doar pe anumite unităţi. Putem 
crea baze de date, pornind de la cea iniţială. 








Weight Cases 





Ponderăm baza de date. În prealabil, trebuie 
realizată variabila de ponderare. 
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Transform | Compute Realizăm o variabilă nouă, folosind o formulă şi/ 
sau o funcţie predefinită de SPSS. 

Recode Into Same Modificăm codurile unei variabile, dar fără a-i 

Variable modifica structura iniţială. 

Recode Into Different | Modificăm structura unei variabile din baza de 

Variables date. Rezultatul este o variabilă nouă. 

Analyze Descriptive statistics > | Realizăm tabele de frecvenţă, calculăm diferiţi 

Frequencies indicatori ai tendinței centrale, ai variaţiei şi/sau ai 
poziționării şi creăm grafice. 

Descriptive statistics > | Explorăm datele. Putem testa asumptia distribu- 

Explore tiei normale folosind indicatori statistici şi 
grafice. 

Descriptive statistics > | Realizăm tabele de contingenta, inclusiv testul de 

Crosstabs semnificaţie chi square (hi-pătrat). Calculăm 
diferiţi indicatori de asociere între variabile 
categoriale. Putem crea şi graficul specific 
încrucişării variabilelor categoriale. 

Descriptive statistics > Testăm grafic abaterea de la distribuţia normală. 

P-P Plots sau Q-Q Plots 

Compare means > Comparăm media unei variabile din baza de date 

One-Sample T Test cu media furnizată de cercetător. 

Compare means > Comparăm mediile a două grupuri. 

Independent-Sample T 

Test 

Compare means > Comparăm mediile a cel puţin trei grupuri. 

One-Way ANOVA 

Correlate > Bivariate | Corelăm două variabile metrice. 

Correlate > Partial Corelăm două variabile metrice, controlând altă 
variabilă. 

Regression > Linear Explicăm variaţia unei variabile metrice (depen- 
dentă), folosind simultan mai multi predictori : 
rulăm analiza de regresie liniară. 

Regression > Curve Verificăm dacă între două variabile metrice există o 

Estimation relaţie liniară. 

Graphs Realizăm grafice. 

Window Split Putem împărţi imaginea în Data View, astfel încât 
să vizualizăm datele în cel puţin două secţiuni. În 
figura 3.7 este prezentată împărţirea implicită 
activată prin utilizarea meniului. A nu se confunda 
cu meniul Data > Split File. 

Help Permite accesul la informaţii detaliate despre 
capabilitățile programului. 








Am enumerat în tabelul 3.1 informaţiile pe care un începător trebuie să le 
acumuleze rapid. După ce acesta le-a înţeles, iar utilizarea lor este deja o rutină, 
tranziţia către analizele mai complicate devine mult mai uşoară. 


GESTIONAREA BAZEI DE DATE 53 


Figura 3.7. Meniul Window > Split: rezultatul împărţirii 











a 
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nrchest nrchest | di 
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2 2 2 
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3.2.2. Variable View 


o-oo 0 0 
=à = wo = 


In acest meniu creăm variabilele şi le definim proprietăţile. Spre deosebire de 
Data View, în acest caz, rândul este o variabilă, iar coloanele sunt proprietăţi 
diferite ale acestuia. 


Figura 3.8. Variable View 






































Name Type Width | Decimals Label Values Missing Columns Align Measure 
“| firchest | Numeric 8 0 numarul ches:i... None None 8 Æ Right L Scale 
2 di Numeric 8 0 sexul (0, feminin)... None 8 Right ®& Nominal 
3 d2 Numeric 8 0 ocupatia dvs. a... (1, agriculto... None 8 Right ®& Nominal 
4 d3 Numeric 8 0 din ce an aveti... None None 8 Æ Right E Scale 
5 d4 Numeric 8 0 statutul ocupati... 1, salariat)... None 8 Æ Right ®& Nominal 
6 d5 Numeric 8 0 domeniul de c... (1, agricultu... None 8 Æ Right & Nominal 








Orice variabilă are un nume (coloana Name), căruia îi atribuim o etichetă 
(coloana Label). În figura 3.8 observăm, de exemplu, că variabila nrchest are 
eticheta „numarul chesti...”, iar variabila d1 are eticheta „sexul”, pe când variabila 
d2 are eticheta „ocupatia dvs. a...”. Putem vedea eticheta întreagă, adică „numarul 
chestionarului” sau „ocupatia dvs. actuala (principala)” dacă mergem cu mouse-ul 


între Label şi velie şi tragem de linia care le separă. Observăm 


că eticheta nu foloseşte diacritice. Uneori, în funcţie şi de setările computerului 
pe care este deschisă baza de date, acestea nu sunt citite corect, fiind înlocuite 
cu un simbol cum ar fi semnul de întrebare. De aceea, prefer să am două variante 
ale bazei de date: una cu diacritice şi una fără diacritice. 

Variabilele care au coduri, cum sunt aici sexul (d1), ocupaţia (d2) sau statutul 
ocupational (d4), trebuie etichetate. Acest lucru se face în coloana Values. Atunci 


54 INTRODUCERE IN SPSS PENTRU CERCETAREA SOCIALĂ ŞI DE PIAȚĂ 


când codurile nu sunt etichetate în dreptul variabilei respective, în coloana Values 
apare textul None. 

În SPSS introducem, de regulă, numere. De aceea, majoritatea variabilelor vor 
fi numerice (coloana Type). Dacă introducem text, atunci tipul se schimbă în String. 

Pentru că variabilele vizibile în figura 3.8 nu au valori cu zecimale, atunci în 
coloana Decimals ne asigurăm că avem valoarea 0. Dacă o variabilă are valori 
cu o zecimală, vom înlocui 0 cu 1, iar dacă are valori cu două zecimale, vom 
înlocui O cu 2 s.a.m.d. 

Ar fi indicat ca fiecărei variabile să îi fie definit corect nivelul de măsurare 
în coloana Measure. Astfel, vom beneficia de ajutor suplimentar din partea SPSS 
care, în anumite meniuri, dacă nivelul de măsurare este definit corect, va sugera 
diferite modalităţi de lucru. 

Aş mai menţiona aici doar coloana Missing în care instruim programul, 
introducând codurile aferente, pentru ignorarea nonrăspunsurilor în analize. 


3.3. Ponderarea bazei de date (Data > Weight Cases) 


În acest volum pornesc de la asumptia că datele disponibile sunt culese prin 
utilizarea unui design de eşantionare probabilist. Un eşantion este probabilist 
atunci când toate obiectele care fac parte din populaţia de referinţă a studiului au 
o şansă diferită de zero de a fi selectate în eşantion (Levy şi Lemeshow, 2008). 
Folosesc cuvântul „obiect”, pentru că, în funcţie de nevoile de cercetare, putem 
fi interesaţi să extragem un eşantion de persoane (români adulţi, cu vârsta egală 
sau mai mare de 18 ani sau elevi din clasele I-VIII, care fac parte din şcoli în 
care a fost implementat un program de reducere a abandonului şcolar sau sunt 
consumatori ai iaurtului cu fructe produs de o anumită companie etc.), dar şi de 
lucruri (maşini produse de o anumită companie care ies de pe linia de producţie 
într-o lună, ouă care provin din găini crescute la sol şi ouă care provin din găini 
crescute în baterii etc.). În toate exemplele fac referire la eşantioane de persoane. 

Pentru a extrage un eşantion probabilist, avem nevoie de un cadru de eşantionare. 
Să presupunem că vrem să extragem un eşantion de persoane adulte cu vârsta de 
18 ani şi peste, neinstitutionalizate. Designul frecvent utilizat in România este cel de 
tip stratificat, multistadial, cu selecţie aleatoare în fiecare stadiu. După ce sunt 
selectate localităţile, se aleg secţiile de vot şi, în final, cei care vor fi intervievaţi din 
cadrul fiecărei secţii alese anterior. Informaţiile despre distribuţia populaţiei României, 
grupată în funcţie de regiunile de dezvoltare, ariile culturale (Sandu, 1999) sau regiunile 
istorice încrucişate cu mărimea oraşelor şi tipul de sat (aparținător sau reşedinţă de 
comună), mărimea satelor după numărul de locuitori sau gradul de dezvoltare al 
localităţilor rurale pot fi culese de la Institutul Naţional de Statistică!. Informaţii 


1. Institutul National de Statistică: http : //www.insse.ro. 
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despre secţiile de vot şi membrii acestora pot fi culese de la primăriile localităţilor 
selectate sau de la Autoritatea Electorală Permanentă!. Dacă aceste informaţii sunt 
actualizate şi armonizate corespunzător, iar operatorii de teren respectă instruc- 
tiunile primite de la cercetători, atunci structura eşantionului pentru variabile-cheie 
cum ar fi mediul de rezidenţă, sexul, vârsta, educaţia ş.a. ar fi similară cu structura 
populaţiei. În practică, există situaţii când cele două structuri nu se suprapun 
perfect. De aceea, se recurge la ponderare. Programul de statistică este instruit 
să ia în considerare într-o măsură mai mare ceea ce este subreprezentat în eşantion 
şi într-o măsură mai mică ceea ce este suprareprezentat în eşantion. Acest lucru 
se face prin construirea unei variabile denumită pondere (weight). De exemplu, 
în cercetarea World Values Survey din 2012 (WVS 2012), al cărui chestionar a 
fost aplicat şi în România, a fost folosită o variabilă de ponderare. Calcularea 
ponderilor este un proces destul de laborios care nu face obiectul acestei cărţi. 
O descriere detaliată, într-un context comparativ, poate fi consultată pe platforma 
ESS EduNet? pusă la dispoziţie în cadrul proiectului European Social Survey? sau 
în lucrările dedicate eşantionării, cum ar fi cea scrisă de Levy şi Lemeshow (2008) 
care, in Sampling of Populations: Methods and Applications, dedică un întreg 
capitol construirii ponderilor, acesta fiind scris de Paul S. Biemer şi Sharon L. 
Christ. De asemenea, vă recomand să consultaţi materialele metodologice ale unor 
cercetări cum ar fi European Values Study“ sau European Quality of Life Survey. 

Echipa din România care a aplicat a creat o variabilă de ponderare pentru baza 
de date. Înainte de a începe analizele propriu-zise, baza de date trebuie ponderată. 
Există situaţii, ca aceasta la care mă refer, în care baza de date pe care trebuie 
să o folosim pentru a rula anumite analize statistice nu este creată de noi. Analistul 
primeşte baza de date pregătită pentru analiză. Aceasta ar trebui să conţină şi 
variabila de ponderare. În WVS 2012, căutând în Variable View, am aflat că 
variabila de ponderare este V258. Căutarea în Variable View se poate face în 
mai multe moduri. Putem să navigăm, derulând vertical în coloana Name şi 
coloana Label, căutând cuvintele-cheie „pondere” sau „weight” sau un alt cuvânt 
asemănător. Mai rapid ar fi să dăm click în prima celulă din coloana Label. Apoi 
apăsăm iconita ™, cu care suntem familiarizați din alte programe utilizate in 
viaţa de zi cu zi. Sau putem apăsa simultan tastele CTRL + F. Se deschide 
fereastra din figura 3.9. În secţiunea Find tastăm cuvântul „weight”. Am ales 
acest cuvânt-cheie pentru că baza de date WVS 2012 este etichetată în limba 
engleză, fiind o cercetare comparativă la nivel internaţional, iar datele din 





Autoritatea Electorală Permanentă : http : //www.roaep.ro. 
ESS EduNet: http : //essedunet.nsd.uib.no/cms/topics/weight. 
European Social Survey : http : //www.europeansocialsurvey.org. 
European Values Study: http : //www.europeanvaluesstudy.eu. 
European Quality of Life Survey: http : //www.eurofound.europa.eu/surveys/eqls/ 
index.htm. 
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România sunt integrate în acelaşi fişier cu datele din alte ţări. Apăsăm butonul 
Find Next o dată sau de mai multe ori, până când găsim ceea ce căutăm. Dacă 
etichetele ar fi fost scrise în limba română, am fi folosit cuvântul-cheie „pondere”. 
Nu există o regulă: cuvintele sunt alese în funcţie de ce vrem să găsim. Când 
nu suntem siguri cu privire la forma sub care este folosit cuvântul, tastăm doar 
o parte din acesta: „weig” sau „pond”. 


Figura 3.9. Find: căutare după un cuvânt-cheie 


<a: Find and Replace - Variable View 





Column: Label 
Find: [weight] [>] 


[_] Replace 

















| Show Options == ] 











Find Next || Replace | Replace All | Close | Help | 





Ponderarea se face din meniul Data > Weight Cases. in figura 3.10 este pre- 
zentată fereastra cu modificările efectuate, pregătită doar pentru a apăsa butonul 
OK. Căutăm variabila V258 în lista de variabile din stânga. Iniţial, este selectată 
opţiunea Do not weight cases. Dacă baza de date nu trebuie ponderată, această 
opţiune rămâne neschimbată. Aici bifăm opţiunea Weight cases by. S-a activat 
secţiunea Frequency Variable în care introducem, folosind săgeata, variabila V258. 


Figura 3.10. Data > Weight Cases: meniul în care activăm ponderea 
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În output nu se va întâmpla nimic, adică nu va fi produs nici un tabel sau un 
grafic. În baza de date, indiferent că ne aflăm în meniul Data View sau Variable 
View, iar opţiunea Status Bar este activată, ar trebui să fie, în colţul din dreapta 
jos, afişată expresia Weight On, ca în figura 3.11. 


Figura 3.11. Confirmare vizuală că ponderea este activă 


me 
| Weight On | 


Ponderea poate fi dezactivată în acelaşi meniu, Data > Weight Cases, selectând 
Do not weight cases şi apăsând OK. Revenind în meniul Data View sau Variable 
View, ar trebui să fi dispărut confirmarea Weight On prezentată în figura 3.11. 

Observăm în figura 3.10 că variabila de ponderare pe care o solicită SPSS este 
Frequency Variable. Acest lucru înseamnă că valorile pe care le ia variabila de 
ponderare sunt numere de tipul 1, 2, 3, 100, 130 etc. În Help, de altfel şi când 
rulăm diferite analize, suntem avertizaţi că, atunci când cazurile primesc pondere 
egală cu zero sau ponderi cu numere negative (cu minus), acestea sunt eliminate 
din analiză. Unele analize acceptă şi ponderi de tipul 1.2, 0.7 etc., iar alte analize 
nu acceptă deloc ponderi. Trebuie să vă documentati bine înainte de a rula o 
analiză pe o bază ponderată, pentru a vedea în ce măsură este corectată structura 
eşantionului. 


3.4. Filtrarea bazei de date (Data > Select Cases) 


A filtra o bază de date înseamnă a selecta din total doar cazurile care înde- 
plinesc unul sau mai multe criterii. Cazurile care îndeplinesc criteriul de filtrare 
rămân active în baza de date, iar celelalte sunt dezactivate. De asemenea, putem 
să le copiem într-o bază de date diferită. Mai putem să ştergem din baza de date 
iniţială cazurile care nu satisfac criteriul respectiv. 

Cercetarea World Values Survey presupune aplicarea unui chestionar cu multe 
întrebări comune în mai multe ţări într-o perioadă dată de timp. Cercetătorii 
doresc să compare ţările respective după caracteristicile măsurate în chestionar. 
După încheierea muncii de teren, vor exista atâtea baze de date câte tari au fost 
incluse în cercetare. Aceste baze de date sunt unite într-un singur fişier. De 
exemplu, în cazul acestei cercetări, puteţi descărca baza de date care conţine toate 
ţările şi toate etapele din perioada 1981-2005 de pe site-ul World Values Survey, 
iar, în curând, acesteia îi va fi adăugată şi ultima etapă care, în România, s-a 
derulat în 2012. Aşadar, avem o bază de date care conţine atât eşantionul românesc, 
cât şi pe cel german, dar şi altele. Să presupunem că suntem interesaţi să lucrăm 
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doar cu eşantionul românesc. Pentru că multe cazuri şi multe variabile înseamnă 
o bază de date mare în termeni de dimensiuni (megabiti), acest lucru s-ar putea 
traduce prin durate mai mari de procesare a analizei solicitate computerului pe 
care lucraţi. Dacă acesta ne permite să lucrăm cu volume mari de date, ne-ar 
putea totuşi interesa şi partea estetică - să vizualizăm doar variabilele şi cazurile 
care ne interesează. În oricare dintre aceste contexte, vom utiliza un filtru în baza 
de date integrată care ne permite să extragem o nouă bază, care să conţină doar 
eşantionul românesc. Dacă nu vrem să avem mai multe baze de date pe computer, 
va trebui doar să activăm un filtru care va instrui programul să ia în considerare 
doar cazurile ce ne interesează, iar după încheierea activităţii care solicita filtrul, 
îl vom dezactiva şi vom vizualiza, din nou, baza iniţială cu toate cazurile. 


3.4.1. Activarea unui filtru : lucrăm pe baza de date iniţială 


Să presupunem că vrem doar să păstrăm active anumite cazuri, fără a crea o bază 
distinctă. Lucrăm doar cu datele culese în România. 

Vrem să rulăm o analiză doar pentru bărbaţi: Care este procentul bărbaţilor 
români care se declară fericiţi sau foarte fericiţi ? 

Mai întâi, trebuie să găsim variabila care indică sexul respondentilor. Căutând 
în Variable View, aflăm că aceasta se numeşte V240. Pentru a activa un filtru în 
baza de date, trebuie să cunoaştem valorile (codurile) variabilei/variabilelor care 
constituie filtrul respectiv. Care este codul bărbaţilor? Pentru a răspunde la 
această întrebare, realizăm un tabel de frecvenţă (tabelul 3.2) folosind meniul 
Analyze > Descriptive Statistics > Frequency. Pentru a vedea codurile, trebuie 
să fi făcut modificările în meniul Edit > Options aşa cum le-am discutat ceva 
mai devreme. Codul bărbaţilor (Male) este 1. 


Tabelul 3.2. Tabel de frecvență: Care sunt codurile folosite pentru bărbaţi 
şi pentru femei? 

















V240 Sex 
Frequency | Percent | Valid Percent | Cumulative Percent 
Valid 1 Male 723 48.1 48.1 48.1 
2 Female 780 51.9 51.9 100.0 
Total 1503 100.0 100.0 


























Pentru a selecta doar bărbaţii, trebuie să utilizăm filtrul: V240 = 1. Astfel, 
vor rămâne activi în baza de date doar bărbaţii. Să reținem structura filtrului : 
numele variabilei = cod. Pentru a activa acest filtru, mergem în meniul Data > 
Select Cases (Figura 3.12a). Iniţial, în secţiunea Select, este bifat All cases. 
SPSS utilizează, în această situaţie, toate cazurile din baza de date. Pentru a activa 
filtrul dorit, trebuie să bifăm If condition is satisfied. Observăm că se activează 
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butonul If. După ce am apăsat butonul If, se deschide fereastra în care vom pune 
condiţia prin care instruim SPSS să păstreze activi doar bărbaţii (figura 3.12b). 
Căutăm variabila V240 în lista de variabile din stânga şi, folosind săgeata, o 
trecem în secţiunea din dreapta sus. Apoi introducem filtrul: V240 = 1. Bărbaţii 
trebuie să rămână activi. Apăsăm Continue. Ne asigurăm că în fereastra iniţială 
(figura 3.12a), în secţiunea Output, este bifată opţiunea Filter out unselected 
cases. Apăsăm OK. 

Începătorii cred că ar trebui să utilizeze butoanele pe care le oferă programul 
(figura 3.12b). Apăsând, de exemplu, semnul „= ” şi cifra 1, programul ne va pune 
automat şi spaţiile necesare între elementele distincte. Semnele „< =” şi „> =” 
înseamnă „mai mic sau egal”, respectiv „mai mare sau egal”. Semnul „-=” 
înseamnă „diferit de”. Semnul „&” înseamnă „şi”, iar semnul „|” înseamnă „sau”. 





Figura 3.12. Meniul Data > Select Cases: fereastra iniţială prin care activăm, 
dezactivăm, copiem sau ştergem cazuri 
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Filtrul este activ. Trebuie să verificăm corectitudinea operatiunii efectuate. În Data 
View vedem că unele rânduri nu sunt tăiate (2, 3, 6, 7 şi 10), iar altele sunt tăiate 
(1, 4, 5, 8 şi 9) (tabelul 3.3a). Acesta este modul programului SPSS de a ne spune 
că un filtru este activat. Dar, pentru a fi siguri că filtrul activ este corect, în această 
situație, realizăm un tabel de frecvență pentru variabila folosită în filtru, V240 
(tabelul 3.3b). Observăm că doar bărbaţii sunt activi, deci filtrul activ este cel dorit. 


Tabelul 3.3. Tabel de frecvenţă: verificarea corectitudinii filtrului 
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(b) 
V240 Sex 
Frequency Percent | Valid Percent | Cumulative Percent 
Valid 1 Male 723 100.0 100.0 100.0 























Nu ne rămâne decât să realizăm un alt tabel de frecvenţă pentru variabila care ne 
arată procentul bărbaţilor români fericiţi sau foarte fericiţi. Această variabilă poartă 
numele V10. Folosind meniul Analyze > Descriptive Statistics > Frequencies, 
obţinem tabelul 3.4, unde observăm că 13% sunt „foarte fericiţi” (Very happy) şi 58% 
sunt „destul de fericiţi” (Rather happy). Citim procentele valide (Valid Percent) care 
sunt calculate din totalul bărbaţilor care şi-au declarat nivelul de fericire, adică au 
răspuns la V10. Acest total este 719 bărbaţi, spre deosebire de totalul general care este 
723 de bărbaţi. Folosind procentele cumulate (Cumulative Percent), puteam să spunem 
că 71% dintre bărbaţii români se declarau foarte fericiţi sau destul de fericiţi în 2012. 


Tabelul 3.4. Tabel de frecvenţă: Distribuţia fericirii 
în rândul bărbaţilor români (WVS 2012) 
































V10 Feeling of happiness 
Frequency | Percent | Valid Percent | Cumulative Percent 
Valid 1 Very happy 91 12.6 12.7 12.7 
2 Rather happy 418 57.7 58.1 70.7 
3 Not very happy 184 25.5 25.6 96.4 
4 Not at all happy 26 3.6 3.6 100.0 
Total 719 99.4 100.0 
Missing |-2 No answer 1 .2 
-1 Don t know 3 4 
Total 4 6 
Total 723 100.0 























in unele situatii, filtrele de care avem nevoie sunt mai complexe. Folosind aceleasi 
date, dorim să aflăm care este nivelul de fericire al bărbaţilor care au educaţie 
superioară. Filtrul include acum două variabile : sexul şi educaţia. Mai întâi, trebuie 
să aflăm care sunt variabilele de care avem nevoie pentru analiză. Ştim că sexul este 
V240. Educaţia este V248. Fericirea este V10. Să ne amintim: am găsit numele 
variabilelor în Variable View, dând click într-o celulă în coloana Label, apăsând pe 


iconiţa reprezentând binoclu a şi tastand „sex”, „educ” sau „happ”. Pasul următor 
presupune să aflăm codurile pe care le vom folosi pentru a crea filtrul. Pentru realizarea 
acestui obiectiv trebuie să alcătuim un tabel de frecvenţă pentru fiecare dintre cele 
două variabile de filtrare, sexul (V240) şi educaţia (V248). Deja ştim codurile pentru 


1. Traducerea în limba română este preluată din chestionarul românesc al WVS 2012. 
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sex, aşa că, folosind meniul Analyze > Descriptive Statistics > Frequencies, 
realizăm unul doar pentru educaţie (tabelul 3.5). Dacă, anterior, am creat alte tabele 
de frecvenţă şi nu am închis baza de date, veţi remarca faptul că în fereastra meniului 
există acele variabile. Pentru a reveni la setările iniţiale din meniu, apăsăm butonul 


fese] Codurile pentru educaţie superioară sunt 8 şi 9. Dacă nu am fi avut etichete 
pentru coduri, nu am fi ştiut care dintre acestea reprezintă educaţia superioară. Aici 
este folosită o schemă de clasificare a nivelurilor educaţionale care permite comparatia 
între tări. Puteţi consulta, de exemplu, International Standard Classification of 
Education (ISCED)! pentru a înţelege mai bine această idee. 


Tabelul 3.5. Tabel de frecvenţă: Care sunt codurile pentru bărbaţi 
şi pentru mediul rural? 












































V248 Highest educational level attained 
Frequency | Percent Valid Cumulative 
Percent Percent 

Valid 1 No formal education 5 T eh 7 
2 Incomplete primary school 13 1.8 1.8 2.5 
3 Complete primary school 26 3.6 3.7 6.2 
4 Incomplete secondary 27 3.7 3.7 9.9 
school: technical/ vocatio- 
nal type 
5 Complete secondary school: 188 26.0 26.3 36.2 
technical/ vocational type 
6 Incomplete secondary 120 16.6 16.8 52.9 
school: university-prepara- 
tory type 
7 Complete secondary school: 165 22.8 23.1 76.0 
university-preparatory type 
8 Some university-level 52 7.2 7.3 83.3 
education, without degree 
9 University-level educa- 119 16.5 16.7 100.0 
tion, with degree 
Total 715 98.8 100.0 

Missing |—2 No answer 8 1:2 
Total 723 100.0 























Aşadar, filtrul poate fi scris sub forma : V240 = 1 & (V248 = 8 | V248 = 9). 
Prima secţiune a filtrului, dinaintea semnului &, o cunoaştem: sunt bărbaţii. A 
doua secțiune se referă la educația superioară: observăm că, dacă folosim mai 
multe condiții pentru aceeaşi variabilă, trebuie să îi introducem numele de fiecare 


1. http ://www.uis.unesco.org/Education/Pages/international-standard-classification-of- 
education.aspx. 
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dată. Pentru că un respondent nu poate alege în chestionar la V248 decât un 
singur răspuns, trebuie să folosim semnul | (sau). 

Pentru verificare realizăm un tabel de frecvenţă pentru fiecare dintre cele două 
variabile de filtrare (tabelul 3.6). Observăm că au rămas active în baza de date 
doar codurile pentru bărbaţii cu studii superioare. 


Tabelul 3.6. Tabele de frecvenţă: verificarea corectitudinii 
filtrului V240 = 1 & (V248 = 8 | V248 = 9) 


V240 Sex 
| | | Frequency | Percent | Valid Percent | Cumulative Percent 





V248 Highest educational level attained 








Frequency | Percent | Valid Percent | Cumulative Percent 
Valid |8 Some univer- 52 30.5 30.5 30.5 

sity-level education, 
without degree 
































9 University-level 119 69.5 69.5 100.0 
education, with degree 
Total 171 100.0 100.0 





Un filtru poate fi scris, uneori, in mai multe forme. Incercati acest lucru în 
situatia data. 

Acum putem rula analiza propriu-zisă : aflarea procentului bărbaţilor romani 
cu studii superioare care se declară fericiţi (tabelul 3.7). 86% dintre aceştia se 
declară foarte fericiţi sau destul de fericiţi. Procentele sunt calculate din totalul 
de răspunsuri valide, adică 170. Cand filtrati baza de date, fiţi atenţi la cazurile 
care rămân active: dacă vă rămân puţine cazuri, atunci trebuie să vă întrebaţi ce 
relevanţă are analiza respectivă. 


Tabelul 3.7. Tabel de frecvenţă: Distribuţia fericirii în rândul bărbaţilor români cu 
studii superioare (WVS 2012) 





V10 Feeling of happiness 





Frequency | Percent | Valid Percent | Cumulative 




















Percent 
Valid 1 Very happy 19 10.8 10.9 10.9 
2 Rather happy 129 75.2 75.7 86.5 
3 Not very happy 22 12.9 13.0 99.5 
4 Not at all happy 1 5 5 100.0 
Total 170 99.4 100.0 
Missing |—1 Dont know 1 6 























Total 171 100.0 
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Filtrul rămâne activ până când îl dezactivăm. Dezactivarea se face din acelaşi 
meniu Data > Select Cases. Trebuie doar să bifăm All cases şi apoi să apăsăm 
butonul OK. Atunci când filtrul este activ, în Data View sau Variable View, în 
Fitter On [Weight On 





colţul din dreapta jos observăm pe Status Bar . După ce am 
bifat All cases şi am apăsat OK, va dispărea Filter On din Staus Bar. În încheiere, 
să observăm fereastra meniului cu toate modificările efectuate (figura 3.13). 
Observăm în dreapta butonului If condiţia activă şi, sub lista de variabile şi 
deasupra butoanelor, expresia Current Status : Filter cases by values of filter_$. 
Această expresie ne indică faptul că SPSS a creat o variabilă care ia valorile 1 şi 0, 
unde 1 este codul atribuit cazurilor care îndeplinesc condiţia şi 0, codul celor 
care nu o îndeplinesc. Dacă dorim să reutilizăm filtrul fără a mai face toate aceste 
operaţiuni, atunci putem redenumi această variabilă în Variable View şi, apoi, 
când avem nevoie de ea, o putem introduce în secţiunea Use filter variable. Dacă 
nu o redenumim, data viitoare cand creăm un filtru folosind condiţii noi, aceasta 
va fi eliminată şi vom pierde informaţia iniţială. 


Figura 3.13. Meniul Data > Select Cases: fereastra cu filtrul care menţine active 
doar anumite cazuri 


„ai Select Cases x! 





Select 
| | OO All cases 


(3) If condition is satisfied 


Nee | V240 = 1 & (248 = 8 | V248... 
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(3) Filter out unselected cases 


\_) Copy selected cases to a new dataset 
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3.4.2. Crearea unei baze de date folosind un filtru 


Folosind acest meniu, putem crea şi o bază de date care conţine doar cazurile ce 
îndeplinesc anumite condiţii. Singurul lucru pe care trebuie să îl facem este ca, 
în loc să bifăm Filter out unselected cases, să bifăm Copy selected cases to a 
new dataset (figura 3.14). 


Figura 3.14. Meniul Data > Select Cases: fereastra cu filtrul 
care creează o bază nouă de date 


Select 





© All cases 
(3) If condition is satisfied 
V24C = 1 & (V248 = 8 | V248.. 


O Based nn time nr rase range 





Range 
_) Use filter variable: 


» | | 

















-Dutput 
© Fitter out unselected cases 


(3) Copy selected cases to a new dataset 
Dataset name: |hazawvs201 2barbedusup 




















O Delete unselected cases 





Current Satus: Filter cases by values of filter_$ 


Paste | Reset | Cancel | Help 





Când bifăm Copy selected cases to a new dataset se activează opţiunea 
Dataset name. Aici trebuie să introducem un nume pentru noua bază de date, 
care trebuie să respecte condiţiile impuse numelor variabilelor : să înceapă cu o 
literă şi să nu conţină spaţii între caractere. Ar fi de preferat să fie şi scurt. 
Apăsând OK, SPSS creează o bază de date care trebuie salvată pe computer, 
această bază conţinând doar cazurile pe care le defineşte filtrul. 
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În figura 3.14 se observă că mai avem, în secţiunea Output, opțiunea Delete 
unselected cases. Aceasta este utilă doar dacă aţi salvat baza de date originală şi 
lucraţi pe o copie a acesteia. În caz contrar, veţi pierde informaţii greu de recuperat 
după această acţiune distructivă. 


3.5. Separarea bazei de date (Data > Split File) 


Utilizarea filtrelor este un lucru obişnuit în manipularea bazei de date şi în analiza 
datelor din aceasta. 

În unele situaţii dorim să comparăm rezultatul unei analize pentru două sau 
mai multe grupuri. Care este procentul bărbaţilor foarte fericiţi prin comparaţie 
cu cel al femeilor fericite ? Predictorii fericirii aleşi în cazul femeilor şi în cel 
al bărbaţilor funcţionează la fel? Ideea de bază este că, prin separarea bazei de 
date (split file), putem vizualiza outputul unei analize pentru două sau mai multe 
grupuri distincte. Pentru aceasta pot fi folosite şi filtre, ceea ce este o chestiune de 
gust, în multe situaţii. 

SPSS ne permite să separăm baza de date în funcţie de o variabilă categorială 
care conţine cel puţin două grupuri, cum ar fi bărbaţi versus femei, locuitori din 
mediul rural versus locuitori din mediul urban, români versus germani versus 
bulgari, căsătoriţi versus divortati versus văduvi etc. Variabila categorială este 
variabila de separare. Alte variabile vor fi utilizate pentru a rula o analiză pentru 
fiecare dintre aceste grupuri. În tabelul 3.8 este prezentat tabelul de frecvenţă al 
variabilei fericire pentru bărbaţi, respectiv, femei. 

Lucrăm, aşadar, cu două tipuri de variabile : cea de separare şi cea sau cele 
pe care le folosim în analize statistice. Aici am separat în funcţie de sex şi am 
făcut o analiză statistică pentru fericire. Pentru situaţia de faţă, este mai util să 
realizăm un tabel de contingenţă, despre care vom vorbi în alt capitol al acestui 
volum. Mi se pare mai utilă această opţiune pe care ne-o oferă SPSS atunci 
când rulăm un model multivariat, cum ar fi o regresie liniară multiplă. Dacă 
presupunem că modelul funcţionează diferit pentru bărbaţi şi pentru femei, 
atunci putem vedea rezultatul în output în funcţie de opţiunea de separare 
prezentată aici. 

Revenind la principiul opțiunii, variabila de separare va fi, întotdeauna, o 
variabilă categorială: sex, mediu de rezidenţă, stare civilă etc. Putem folosi si 
variabile metrice, cum ar fi vârsta, doar dacă aceasta a fost recodificată în prealabil : 
18-34, 35-64, 65+. Atunci când recodificăm, creând categorii, trebuie ca numărul 
de cazuri ce revine fiecărei categorii să fie rezonabil de mare astfel încât să aibă 
sens comparatia dintre grupurile rezultate. De aceea, vom folosi variabile de 
separare cu puţine categorii, mai ales când eşantioanele sunt mici ca volum. 
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Tabelul 3.8. Reprezentare grafică a rezultatului separării bazei de date 





V10 Feeling of happiness 










































































V240 Sex Frequency | Percent Valid Cumulative 
Percent Percent 
1 Male | Valid 1 Very happy 91 12.6 12.7 12.7 
2 Rather happy 418 57.7 58.1 70.7 
3 Not very 184 25.5 25.6 96.4 
happy 
4 Not at all 26 3.6 3.6 100.0 
happy 
Total 719 99.4 100.0 
Missing |—2 No answer 1 .2 
—1 Dont know 3 A 
Total 4 6 
Total 723 100.0 
2 Female | Valid 1 Very happy 114 14.6 14.7 14.7 
2 Rather happy 415 53.3 53.5 68.2 
3 Not very happy 213 27.3 27.5 95.7 
4 Not at all happy 33 4.3 4.3 100.0 
Total 776 99.5 100.0 
Missing |-2 No answer 3 A 
—1 Dont know 1 „1 
Total 4 5 
Total 780 100.0 


























Dacă dorim să calculăm vârsta medie a bărbaţilor şi a femeilor din România 
şi să avem această informaţie într-un singur tabel, atunci putem folosi separarea. 
Variabila de separare va fi sexul, iar variabila pentru care calculăm media va fi 
vârsta. Variabila sex are numele V240, iar variabila vârstă are numele V242. Mai 
întâi, alcătuim câte un tabel de frecvenţă pentru a verifica dacă există nonrăspun- 
suri şi pentru a ne familiariza cu cele două variabile. Variabila sex are două coduri, 
1, pentru bărbat şi 2, pentru femeie. Variabila vârstă are foarte multe valori, cea 
minimă fiind 18 ani şi cea maximă fiind 85 de ani. La variabila sex nu există 
nonrăspunsuri. La variabila vârstă există trei persoane care nu şi-au declarat 
vârsta. Observăm că, în baza de date, acestea au fost deja definite ca nonrăspun- 
suri, pentru că există în tabelul de frecvenţă secţiunea Missing, sub Total. Celor 
trei persoane care nu şi-au declarat vârsta le-au fost atribuite codul -2, „nu răspund”. 
Aceste operaţiuni fiind deja realizate, putem trece la analiza propriu-zisă. 

Mai întâi trebuie să separăm baza de date. Acest lucru se face mergând în 
meniul Data > Split File (figura 3.15). În fereastra care se deschide, iniţial este 
bifată opțiunea Analyze all cases, do not create groups. Bifăm opţiunea Compare 
groups. Introducem variabila sex (V240) în secţiunea Groups Based on. Apăsăm OK. 
SPSS ne anunţă că este activă opţiunea de separare a bazei de date în Data View sau 


Variable View, în colţul din dreapta jos pe Staus Bar: Wei On (Spit by v240 
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Figura 3.15. Meniul Data > Split File 











ev © Analyze all cases, do not create groups 

ee © Bonpare soups 

E V2a pare group: 

& v3 © Organize output by groups 

> va Groups Based on: 

@ vs & 240 

N >] 

Jw 

& v8 os 

ry va (3) Sort the file by grouping variables 
fb 10 O File is already sorted 








Current Status: Analysis by groups is off. 


Acum putem calcula media vârstei. Acest lucru îl putem face din meniul cu 
care ne-am obişnuit deja, Analyze > Descriptive Statistics > Frequencies. De 
data aceasta, vom utiliza şi butonul Statistics unde, în secțiunea Central Tendency, 
bifăm Mean (figura 3.16). 


Figura 3.16. Meniul Analyze > Descriptive Statistics > Frequencies: cum calculăm 
media unei variabile 


ai Frequencies: Statistics 
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Rezultatul analizei este prezentat în tabelul 3.9. Cele două medii sunt 45 de 


ani pentru bărbaţi, respectiv 47 de ani pentru femei. 


Tabelul 3.9. Media vârstei: tabel obţinut prin separarea bazei de date 
































Statistics 

V242 Age 

1 Male N Valid 721 
Missing 2 
Mean 45.00 

2 Female N Valid 779 
Missing 1 
Mean 47.40 














Opţiunea de separare rămâne activă până când o dezactivati. Este o situaţie 


similară cu cea de la filtrare. Trebuie să intraţi înapoi în meniul Data > Split 
File şi să bifaţi opţiunea Analyze all cases, do not create groups. Când opţiunea 
de separare nu mai este activă, textul Split by din Status Bar dispare. 


3.6. Exerciţii 


Nota: exerciţiile presupun utilizarea bazei de date European Values Study 2008 
România, disponibilă gratuit la ZACAT - GESIS Online Study Catalogue’. 


1. 


Este baza de date ponderată ? Dacă nu, ponderati baza de date. 


2. Câţi bărbaţi consideră că prietenii şi cunoştinţele lor sunt importanţi în viaţă ? 


Aplicati un filtru, pentru a răspunde la întrebare. 


. Cate femei consideră că prietenii şi cunoştinţele lor sunt importanţi în viaţă ? 


Aplicati un filtru, pentru a răspunde la întrebare. 
Câte femei consideră că familia este importantă în viaţă? Aplicati un filtru, 
pentru a răspunde la întrebare. 


„ Câţi bărbaţi consideră că familia este importantă în viată? Aplicati un filtru, 


pentru a răspunde la întrebare. 


. Câţi locuitori ai localităţilor cu peste 100.000 de locuitori consideră că religia 


este importantă? Aplicaţi un filtru, pentru a răspunde la întrebare. 


. Câţi locuitori ai localităţilor cu mai putin de 100.000 de locuitori consideră că 


religia este importantă? Aplicati un filtru, pentru a răspunde la întrebare. 


. Unde sunt mai multi oameni fericiţi : în localităţile cu mai putin de 100.000 de 


locuitori sau în localităţile care au peste 100.000 de locuitori? Separaţi (Split) 
baza de date, pentru a răspunde la această întrebare. 


. http: //zacat.gesis.org/webview/index.jsp. 
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9. Cine discută mai frecvent despre politică : bărbaţii sau femeile ? Separaţi baza 
de date, pentru a răspunde la această întrebare. 

10. În ce regiune de dezvoltare sunt cei mai mulţi oameni fericiţi ? Separaţi baza 
de date, pentru a răspunde la această întrebare. 


4. Curăţarea şi validarea unei baze de date 


Înainte de a trece la analiza datelor, trebuie să ne asigurăm că acestea nu conţin 
erori. Aici avem, de fapt, două idei. Una dintre ele este cea pe care o discutăm 
în acest capitol: eliminarea erorilor de culegere şi de introducere a datelor. Acesta 
este procesul de curăţare şi de validare a bazei de date. A doua idee se referă la 
testarea validității şi a fidelității măsurătorilor cu care lucrăm. În acest sens, putem 
consulta materiale cum ar fi cele scrise de Mărginean (1982), Saris şi Gallhofer 
(2007) sau Carmines şi Zeller (1979). 

Curăţarea şi validarea unei baze de date constituie un pas esenţial în procesul 
cercetării cantitative. Acesta este un proces pentru că toate activităţile specifice 
unei abordări cantitative a socialului sunt interconectate. Cel care primeşte sarcina 
să curețe baza de date va comunica permanent cu echipa care a coordonat acti- 
vitatea de teren. Acesta poate să identifice erori în baza de date care trebuie 
verificate prin consultarea chestionarului. Curăţarea nu este o activitate făcută 
într-un birou obscur de cineva care rulează coduri. 

În zilele noastre, multe companii de cercetare nu mai tipăresc chestionarele 
pe hârtie, ci folosesc o metodă de înregistrare digitală. Tableta este un instrument 
foarte util în acest sens. Folosind această abordare, este redusă considerabil 
cantitatea de muncă şi de resurse materiale, umane şi temporale necesare pentru 
finalizarea cercetării. 

Informaţiile prezentate aici se aplică atât în situaţiile în care realizaţi o cercetare 
proprie şi parcurgeti toate etapele aferente, cât si în situaţiile în care utilizaţi date 
culese şi introduse într-o bază de date de altcineva. În a doua situaţie, teoretic, datele 
sunt deja curățate, iar baza este validată. În practică, însă, este bine să realizaţi propria 
verificare : în fond, scăpările altora afectează rezultatul analizelor dumneavoastră. 

Etapele esenţiale pentru curăţarea şi validarea bazei de date sunt: 


etichetarea variabilelor şi valorilor variabilelor, acolo unde este necesar acest lucru ; 
dezactivarea nonrăspunsurilor ; 

verificarea introducerii eronate a unor coduri ; 

validarea logică prin urmărirea filtrelor din chestionar, dar şi a unor întrebări 
factuale ; 

e recodificarea unor variabile esenţiale şi construirea unor variabile noi. 


Procesul de curăţare ne ajută să apreciem posibilitatea de a utiliza sintaxa. 
Sintaxa este echivalentul în cod al clickurilor pe care le daţi în meniuri. Din 
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sintaxă puteţi rula chiar şi comenzi care nu se regăsesc in meniuri. Sintaxa are 
mai multe avantaje, dintre care aş puncta: (a) avem un jurnal al operaţiunilor pe 
care le-am realizat în bază, putând reveni oricând la ele pentru a le consulta sau 
a le rula pe o bază curată; (b) scade timpul petrecut cu diferite operaţii. Nu 
trebuie să învăţaţi comenzile. Pe unele dintre ele, pe măsură ce le utilizaţi, le veţi 
reţine fără probleme. Printre acestea se numără cele pentru tabelul de frecvenţă 
(frequencies), tabelul de contingenta (crosstabs), recodificări (recode), pentru 
realizarea de noi variabile (compute) etc. Mai mult, SPSS ne oferă in toate 
meniurile butonul Paste care, apăsat după ce am bifat toate opţiunile dorite, le 
transformă în coduri pe care le putem salva şi rula oricând. 


4.1. Etichetarea variabilelor şi a valorilor variabilelor 


Am importat baza de date în SPSS şi s-a deschis fereastra Variable View (figura 4.1). 
Trebuie să completăm informaţii pentru fiecare variabilă (fiecare rând) în coloanele 
Label, Values şi Missing. SPSS ghidează analistul în anumite situaţii, sugerându-i 
analizele şi graficele pe care le poate face în funcţie de nivelul de măsurare a varia- 
bilelor selectate. Acest lucru este posibil dacă selectăm corect opţiunile din coloana 
Measure. Însă în practică, aceasta este o opţiune pe care o putem ignora, pentru că, 
pe măsură ce învăţăm să lucrăm cu datele cantitative şi avem mai multe cunoştinţe de 
statistică, putem decide singuri în situaţiile respective. Este chiar preferabil să controlati 
acţiunile programului, şi nu să îl lăsaţi să ia decizii în locul dumneavoastră. 


Figura 4.1. Variable View : baza de date înainte şi după etichetare 
































Name | Type | Width Decimals | Label | Values | Missing | Columns Measure 
| 1 i 8 0 None None 8 L Scale 
2 Numeric 8 0 None None 8 L Scale 
3 Numeric 8 D None None 8 L Scale 
4 dă Numeric 8 a None None 8 $ Scale 
5 d4 Numeric 8 0 None None 8 € Scale 
6 d5 Numeric 8 0 None None 8 # Scale 
Name Type Width | Decimals Label | Values | Missing Columns Align l Measure 
1 Numeric 8 0 numarul chesti... None None 8 ght E Scale 
2 d1 Numeric 8 0 sexul {0, feminin}... None 8 ght & Nominal 
3 d2 Numeric 8 0 ocupatia dvs. a... (1, agriculto... None 8 ght & Nominal 
4 d3 Numeric 8 0 din ce an avet ... None None 8 ght 4 Scale 
5 d4 Numeric 8 0 statutul ocupati... {1, salariat}... None 8 ght & Nominal 
6 d5 Numeric 8 0 domeniul de ac... {1, agricultu... None 8 ght & Nominal 








În coloana Label, introducem explicații detaliate despre ce scrie în coloana 
Name. Dacă nu facem acest lucru, atunci când redeschidem baza de date nu vom 
şti ce Înseamnă nrchest, d1, d2 etc. Nu putem găsi nume intuitive pentru toate 
variabilele. Chiar dacă avem mereu la îndemână un chestionar când lucrăm (de 
fapt, îl avem), nu este tocmai intuitiv să nu avem etichete în baza de date când 
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rulăm diferite analize. De regulă, în coloana Label, se trece chiar întrebarea din 
chestionar. Dacă este prea lungă, atunci o putem prescurta alegând cuvintele cele 
mai importante, astfel încât cei care vor lucra cu această bază de date să înţeleagă 
uşor informaţiile respective. 

Putem proceda în două moduri: (1) în meniul Variable View scriem în coloana 
Label în dreptul variabilei care ne interesează sau (2) deschidem un fişier de sintaxă 
şi scriem comenzile, apoi le rulăm. Recomand varianta a doua pentru că aţi putea 
şterge din greşeală baza şi nu veţi mai avea sintaxa, caz în care va trebui să o luaţi 
de la capăt cu etichetarea şi cu celelalte modificări din acest meniu. Un fişier de 
sintaxă poate fi creat din meniul File > New > Syntax. Se va deschide o fereastră 
nouă similară cu cea din figura 3.5b. Comanda prin care adăugăm o etichetă unui 
nume de variabilă, adică introducerea unei informaţii în coloana Label, este foarte 
simplă: VARIABLE LABELS sau, prescurtat, VAR LAB. Iată sintaxa pentru etichetarea 
celor şase variabile din figura 4.1 : 

VARIABLE LABELS nrchest „numarul chestionarului” 

VARIABLE LABELS d1 „sexul” 

VARIABLE LABELS d2 „ocupatia dvs. actuala (principala)” 

VARIABLE LABELS d3 „din ce an aveti aceasta ocupatie ?” 

VARIABLE LABELS d4 „statutul ocupational” 

VARIABLE LABELS d5 „domeniul de activitate” 

Pentru începători, găsesc utilă folosirea denumirii complete a comenzilor. Veţi 
afla foarte rapid că puteţi prescurta aceste comenzi. Acesta poate fi un exerciţiu de 
familiarizare cu programul : care este varianta prin care puteţi folosi doar o singură 
dată comanda VARIABLE LABELS pentru toate cele şase variabile? Folosiţi 
opţiunea Help a programului pentru a afla acest lucru. 


Figura 4.2. Fişierul de sintaxă : afişarea listei derulante de comenzi 





VARIABLE LABELS nrchest "numarul chestionarului”. 
varia 





VARIABLE ALIGHMENT 
VARIABLE ATTRIBUTE 
VAI S 
VARIABLE LEVEL 
VARIABLE WIDTH 
VARSTOCASES 
VECTOR 

VERIFY 

WEIGHT 

WLS 

WRITE FORMATS 

















| SPSS Statistics Processor is ready | In 2 Col 5 


În figura 4.2 observăm că este suficient să tastăm primele litere din comandă 
şi programul ne ajută deschizând o listă derulantă din care putem alege ceea ce 
ne interesează. Nimic mai simplu! Puteţi întreba: dar de unde ştiu care sunt 
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comenzile pe care trebuie să le folosesc ? Lăsând acest volum la o parte, puteţi 
căuta pe internet - SPSS are foarte multi utilizatori - şi printre aceştia se găsesc 
mulţi entuziaşti ai sintaxei. Cu siguranţă, veţi găsi rapid ceea ce doriţi. Programul 
are un manual bogat care poate fi găsit în meniul Help sau chiar pe internet, pe 
pagina producătorului, IBM. 

După ce am scris prima linie de sintaxă, în această situaţie, este suficient să 
selectăm rândul respectiv, Copy şi Paste pe rândul următor. Modificăm nrchest 
cu d1 şi, între ghilimele, scriem eticheta corespunzătoare. Apoi Paste pe rândul 
următor şi modificăm nrchest cu d2 şi, între ghilimele, scriem eticheta corespun- 
zătoare. Repetăm până când am epuizat variabilele care trebuie etichetate. 

Observăm următoarele : 


e putem scrie comanda VARIABLE LABELS sau VAR LAB fie cu litere mici, 
fie cu MAJUSCULE. SPSS foloseşte în lista derulantă majuscule, dar acestea 
nu sunt obligatorii. Pentru a creşte vizibilitatea în interiorul sintaxei, prefer 
să folosesc pentru comenzi majuscule, iar pentru comentarii litere mici. 

e pe rând, între fiecare element al comenzii, lăsăm un spaţiu, apăsând tasta 
spaţiu. Comandă [spaţiu] numele variabilei [spaţiu] [ghilimele stânga] [eticheta] 
[ghilimele dreapta] [punct]. 

e după comanda VARIABLE LABELS, notăm numele variabilei, aici nrchest 
sau d1 sau d2 etc. SPSS oferă posibilitatea de a pune automat numele variabilei 
în fişierul de sintaxă. Putem merge în meniul Utilities > Variables (figura 
4.3). Variabila nrchest este prima. Nu ne va fi de mare folos. Dar să presu- 
punem că vrem să găsim rapid variabila V240: dăm click în lista de variabile 
din stânga ferestrei pe oricare variabilă, astfel încât aceasta să fie selectată 
(de exemplu, aici este selectată V1). Apoi tastăm rapid primele două-trei 
caractere din numele variabilei care ne interesează, aici V240. Programul ne 
va duce imediat la variabila V240. Ne asigurăm că este selectată şi apăsăm 
butonul Go To, dacă vrem să fie afişată în baza de date, sau butonul Paste, 
dacă vrem să fie copiată în sintaxă. Vom alege a doua opţiune. Acest meniu 
este foarte util atunci când variabilele nu au denumiri atât de intuitive ca d1, 
d2, V240 etc., ci mai greu de ţinut minte, cum ar fi tvtot, trstlgl, prtvtcbe 
etc., acestea fiind denumiri folosite în baza de date a cercetării European 
Social Survey 2012". 

e după numele variabilei, între ghilimele, scriem eticheta. Ghilimelele, in princi- 
piu, sunt necesare dacă eticheta conţine caractere speciale cum ar fi cratima, 
semnul exclamării, punct etc. În plus, delimitează vizual sintaxa. 

e întreaga comanda se încheie cu punct. 


1. http ://www.europeansocialsurvey.org/docs/round6/survey/ESS6_appendix_a8_e01_0. 
pdf. 


CURĂȚAREA ŞI VALIDAREA UNEI BAZE DE DATE 75 


Figura 4.3. Meniul Utilities > Variables: cum găsim rapid o variabilă şi cum îi 
copiem numele în sintaxă 


sai Variables X| 


Variable Information: 




















v. Variable v4 = 
MIMI || Label: Wave 

[7] ¥2 [E Type: F2 

[| Y2a Missing Values: none 

v| V3 Measurement Level: Nominal 
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După ce am încheiat de notat sintaxa şi am salvat fişierul, putem rula sintaxa. 
Deschidem meniul Run, unde există mai multe posibilităţi. Dacă vrem să rulăm 
doar o anumită comandă, şi nu întregul fişier de sintaxă, atunci alegem Selection. 
Pentru a vedea modificările, mergem în Variable View (figura 4.1). Puteţi rula 
sintaxa şi fără să utilizaţi acest meniu: găsiţi prescurtarea ! 

După ce am încheiat etichetarea variabilelor, trecem la etichetarea valorilor, 
acolo unde este cazul. Ceea ce discutăm acum se va finaliza prin introducerea 
unor informaţii în coloana Values din Variable View. Am precizat că nu tot timpul 
este nevoie să etichetăm valorile. Unele variabile au variante de răspuns care nu mai 
necesită explicaţii. Vârsta este măsurată în ani împliniţi : ştim ce înseamnă 46. Salariul 
din luna trecută este măsurat în lei: ştim ce înseamnă 1.350. Numărul de camere 
pe care îl are locuinţa este... un număr: ştim ce înseamnă 2. În schimb, alte 
variabile nu sunt măsurate la fel de intuitiv. Variantele de răspuns sunt exprimate 
numeric prin atribuirea unor coduri. Fericirea este măsurată prin întrebarea : 
„Luând în considerare toate aspectele vieţii dvs., aţi spune că sunteţi... 1. Foarte 
fericit, 2. Destul de fericit, 3. Nu prea fericit, 4. Deloc fericit”. Respondentul 
alege o etichetă, dar în baza de date introducem codul. Dacă nu etichetăm codul, 
nu ştim ce reprezintă acesta. Pentru precizarea ocupaţiei, respondentul trebuie să 
aleagă dintre mai multe variante de răspuns : fiecare are un cod. Fiecare cod trebuie 
etichetat. Putem eticheta codurile fie în Variable View, fie în sintaxă, folosind 
o comandă simplă. Să ne ocupăm de prima variantă. Dăm click pe celula din 
dreptul variabilei dorite, aici d1, şi al coloanei Values. Se vor activa trei puncte 
pe care dăm click. Se va deschide fereastra din figura 4.4a. 
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Figura 4.4. Variable View : etichetarea valorilor variabilei 
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Toate secţiunile sunt initial goale. În celula Value introducem codul 0, iar în 
celula Label vom introduce eticheta „feminin”. Se va activa butonul Add, pe care 
îl apăsăm. Continuăm cu codul 1: în celula Value, introducem codul 1, iar în 
celula Label vom introduce eticheta „masculin”. Am putea avea şi un cod de 
nonrăspuns. Pentru a verifica acest lucru trebuie să realizăm un tabel de frecvenţă 
pentru variabila d1 folosind meniul Analyze > Descriptive statistics > 
Frequencies. Dacă ar exista un cod de nonrăspuns, atunci ar trebui să îi alocăm 
şi acestuia o etichetă. Dacă am tastat greşit, de pildă, „masculin”, atunci vom 
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selecta în celula mare eticheta scrisă greşit, vom modifica în celula Label şi vom 
apăsa butonul Change (figura 4.4b). 

Este mai rapid să utilizăm sintaxa, care este la fel de simplă ca cea utilizată 
la etichetarea variabilelor: VALUE LABELS sau VAL LAB. Pentru etichetarea 
variabilelor folosite ca exemplu aici, sintaxa va fi: 

VALUE LABELS d1 

0 „feminin” 

1 „masculin” 

VALUE LABELS d2 

1 „agricultor” 

2 „muncitor (meserias)” 

3 „tehnician, maistru, functionar” 

4 „ocupatie cu studii superioare” 

5 „alta ocupatie” 

6 „elev, student” 

7 „pensionar” 

8 „casnica” 

9 „acum sunt somer” 

10 „patron” 

VALUE LABEL d4 

1 „salariat” 

2 „pe cont propriu” 

3 „patron” 

4 „zilier” 

VALUE LABEL d5 

1 „agricultura” 

2 „industrie, constructii” 

3 „transporturi, telecomunicatii” 

4 „comerţ, turism, intermedieri etc.” 

5 „invatamant, cultura, cercetare, proiectare” 

6 „sanatate” 

7 „altele” 


Structura sintaxei este aceeaşi ca la VARIABLE LABELS, cu diferenţa că 
etichetele şi codurile sunt trecute pe rânduri separate. 

În chestionar, la d5, varianta de răspuns cu codul 4 are o etichetă ceva mai 
lungă: „comerţ, turism, intermedieri (financiare, imobiliare, pariuri etc.)”. SPSS 
permite un număr limitat de caractere pentru etichetele valorilor, de aceea am 
preferat să folosesc „etc.” în locul informaţiei dintre paranteze. Dacă nu aş fi 
trunchiat eticheta, ar fi făcut-o SPSS, numai că într-un mod mai puţin intuitiv de 
citit. Aflaţi care este numărul maxim de caractere pe care le permite SPSS pentru 
etichetele valorilor. 


78 INTRODUCERE IN SPSS PENTRU CERCETAREA SOCIALĂ ŞI DE PIAȚĂ 


În chestionarul DCV 2010 există mai multe variabile care au aceleaşi variante 
de răspuns, deci aceleaşi etichete. Putem folosi o singură comandă de etichetare 
a valorilor acestor variabile. Să luăm, de exemplu, variabilele d14-d27. Întrebarea 
din chestionar este: „În viaţa fiecăruia intervin o mulţime de condiţii şi împre- 
jurări. Ele pot fi mai bune sau mai putin bune. Mai jos sunt menţionate o serie 
de asemenea aspecte. Vă rugăm să le caracterizați, în ceea ce vă priveşte, 
încercuind cifra corespunzătoare. Alegeţi un singur răspuns la fiecare întrebare”. 
Variabilele cărora li se aplică această întrebare sunt: 






































Foarte Proastă(e) | Satisfă- | Bună(e) Foarte Nu e 
proastă(e) cătoare bună(e) cazul 
D14 | Sănătatea dvs. 1 2 3 4 5 - 
D15 | Relaţiile din 1 2 3 4 5 98 
familie 
D16 | Locuinta dvs. 1 2 3 4 5 - 
iza 1 2 3 4 5 
D27 | Posibilitatile 1 2 3 4 5 - 
existente de 
petrecere a 
timpului liber 
(de recreere) 











Sintaxa de etichetare a valorilor acestor variabile va fi: 

VALUE LABELS d14 d15 d16 d17 d18 d19 d20 d21 d22 d23 d24 d25 d26 d27 

1 „foarte proasta(e)” 

2 „proasta(e)” 

3 „satisfăcătoare” 

4 „buna(e)” 

5 „foarte buna(e)” 

98 „nu e cazul” 

Nu trebuie decât să notăm după VALUE LABELS lista de variabile care au 
aceleaşi variante de răspuns şi aceleaşi etichete ale variantelor de răspuns. Simplu, 
nu? Şi mult mai rapid decât dacă am fi utilizat interfaţa grafică. 

Aţi observat, probabil, că nu folosesc diacritice în etichete. În această carte, în 
tabelele copiate din SPSS, am preferat să nu folosesc diacritice pentru a reproduce 
cât mai fidel senzaţia din timpul interacțiunii dvs. cu programul. Nu toţi utilizatorii 
au computerele setate pentru a recunoaşte diacriticile. De aceea, pentru a avea 
compatibilitate pe toate computerele, prefer să nu le utilizez. Cea mai neplăcută 
situaţie ar fi ca programul să nu le recunoască şi să le înlocuiască cu un semn de 
întrebare sau cu un alt caracter. De asemenea, conform manualului programului, 
utilizarea diacriticelor poate creşte considerabil dimensiunea bazei de date, ceea ce 
duce la creşterea timpului de deschidere a fişierului şi de rulare a analizelor. 
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4.2. Definirea nonrăspunsurilor 


Nonrăspunsurile (missing values) reprezintă absenţa răspunsului valid. Nonrăs- 
punsurile pot fi clasificate în două tipuri generale: cele care tin de aplicarea 
chestionarului ca întreg persoanelor care ar trebui selectate conform schemei 
de eşantionare (unit nonresponse) şi cele care ţin de absenţa răspunsurilor la 
anumite întrebări din chestionar în cazul unei persoane selectate în eşantion 
(item nonresponse). 

Primul tip de problemă apare, de exemplu, din cauza cadrelor de eşantionare 
care nu sunt actualizate sistematic, cum ar fi lista persoanelor cu drept de vot. 
Astfel, operatorul, când vizitează adresa primită, s-ar putea să nu mai găsească 
persoana inclusă în eşantion pentru că aceasta s-a mutat, a decedat etc. O altă 
cauză a nonrăspunsului de acest gen îl reprezintă dificultatea tot mai mare de a-i 
convinge pe oameni să răspundă la chestionare: aceştia nu au încredere în 
operatori, s-au plictisit din cauza solicitărilor frecvente primite de la diferite 
instituţii care realizează astfel de cercetări, nu au încredere în modul cum sunt 
gestionate răspunsurile pe care le oferă etc. O analiză detaliată a acestor probleme 
este realizată de Ineke Stoop (2005) în lucrarea sa intitulată sugestiv The Hunt 
for the Last Respondent. Tot in această direcţie a existat şi există o preocupare 
constantă în diferite anchete comparative, cum ar fi European Social Survey, care 
oferă acces la o documentaţie vastă în această zonă şi nu numai. 

Al doilea tip de problemă apare, de exemplu, din cauza neatentiei operatorului 
care sare peste o întrebare, refuzului de a răspunde al persoanei intervievate, care 
consideră întrebarea prea personală, modului cum a fost formulată o întrebare 
astfel încât respondentul care nu deţine informaţia respectivă se vede nevoit să 
declare că nu ştie răspunsul etc. În principiu, acest gen de nonrăspuns poate fi 
evitat prin modul cum sunt formulate întrebările şi prin pregătirea riguroasă a 
operatorilor de teren. Însă, în realitate, multe chestionare conţin răspunsuri de 
tip „nu ştiu” sau „nu răspund”. Acestea nu sunt răspunsuri valide şi trebuie tratate 
separat în baza de date. Şi nonrăspunsul este însă un fel de răspuns, aşa că, privind 
din perspectiva metodologului, ar fi util să realizăm un profil al acestor persoane 
pentru ca în cercetarea următoare să minimizăm aceste probleme. 

În această secţiune, mă voi referi doar la al doilea tip de nonrăspuns (item 
nonresponse). Nu voi analiza problemele care îl generează, ci doar cum putem 
lucra în SPSS cu acest gen de date. În SPSS, ca şi în alte programe de statistică, 
de altfel, nonrăspunsul este denumit missing value. De multe ori, în practică, am 
întâlnit mai frecvent denumirea în limba engleză, şi nu cea în limba română. Acesta 
este doar rezultatul utilizării frecvente de către cercetători a programelor de 
analiză a datelor care au interfaţa în limba engleză. În bazele de date se folosesc 
coduri speciale pentru nonrăspunsuri. Cel mai adesea am întâlnit codurile 97, 98 şi/ 
sau 99, respectiv derivate ale acestora: 7, 997, 9997, 8, 998, 9998, 9, 999, 9999 
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etc. În bazele de date internationale se folosesc (si) alte coduri: -5, -4, -3, -2, -1. 
Nu trebuie să le folosiţi numai pe acestea. Important este să utilizăm un cod 
pentru nonrăspuns care este foarte diferit de răspunsul valid. Să luăm câteva 
exemple : 


e Variabila d4 din DCV 2010, „statutul ocupational”, are patru răspunsuri 
valide : salariat (codul 1), pe cont propriu (codul 2), patron (codul 3) şi zilier 
(codul 4). În mod normal, ar trebui să primim răspunsuri valide de la toţi 
respondentii pentru că este o întrebare uşor de înţeles, cu variante clare. S-ar 
putea însă ca un respondent să nu dorească să declare statutul său ocupational 
curent. Acest nonrăspuns va fi codificat cu 9, 99, 999 sau orice altă valoare 
similară sau putem utiliza codul -2, similar cercetării WVS 2012. 

e Variabila d30 din DCV 2010, „Cum apreciaţi serviciul de pensii din Romania? ”, 
are cinci răspunsuri valide : foarte prost (codul 1), prost (codul 2), satisfăcător 
(codul 3), bun (codul 4) şi foarte bun (codul 5). Întrebarea este aplicată tuturor 
respondenţilor. Un respondent care nu are pensie sau nu cunoaşte pe cineva 
care are pensie s-ar putea să declare că nu ştie să evalueze acest sistem. Acest 
nonrăspuns va fi codificat cu 8, 98, 998 sau orice altă valoare similară sau 
putem utiliza codul -1 similar cercetării WVS 2012. 

e Variabila d10 din DCV 2010, „starea civilă”, are şase răspunsuri valide : necăsătorit 
(nu a fost căsătorit niciodată) (codul 1), căsătorit (codul 2), divorțat (codul 3), 
separat (codul 4), văduv (codul 5) şi altă situaţie (codul 6). Respondentii care aleg 
codurile 1, 3, 4, 5 sau 6 sunt rugaţi să răspundă la o întrebare suplimentară : 
„Aveţi un partener de viata (cu care locuiti împreună, aveţi menaj comun) ? ”. Cei 
care au răspuns codul 2, adică sunt căsătoriţi, nu mai trebuie să răspundă la această 
întrebare. Nu li se aplică. Acesta este un tip aparte de nonrăspuns, denumit „nu 
e cazul”, care va fi codificat cu 7, 97, 997 sau orice altă valoare similară sau 
putem utiliza codul -3 similar cercetării WVS 2012. 


În Access sau în programul pe care îl utilizăm pentru introducerea datelor, am 
definit deja aceste nonrăspunsuri pentru a uşura procesul de introducere a datelor 
şi de curăţare a bazei de date. Teoretic, nu ar trebui să mai introducem coduri în 
faza de curăţare. 

Unii cercetători preferă să nu instruiască SPSS că „nu ştiu” (98), „nu răspund” 
(99) sau „nu e cazul” (97) sunt nonrăspunsuri, lăsând acest lucru pentru momentul 
analizei pe care o va face. Alţii preferă ca baza dată echipei de cercetare sau altor 
utilizatori să aibă deja nonrăspunsurile definite. 

Nonrăspunsurile pot fi definite fie în Variable View, fie în sintaxă. Vă 
recomand a doua variantă. 

În Variable View, mergeţi cu cursorul pe celula din dreptul variabilei care vă 
interesează i pe rând) şi al coloanei Missing (pe coloană). Se vor activa cele trei 





, pe care dăm click. După ce am realizat modificările, în locul 
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cuvântului None, vom observa valorile pe care le-am definit ca nonrăspunsuri. 
Se deschide fereastra din figura 4.5. In această fereastră, initial, este selectată 
opţiunea No missing values. 


Figura 4.5. Definirea nonrăspunsurilor în Variable View 


(a) 


Ra Missing Values X| 


O No missing values 


(3) Discrete missing values 
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Există două opţiuni pe care le putem bifa. 

Opţiunea Discrete missing values este folosită atunci când variabila are maximum 
trei coduri de nonrăspuns, adică maximum trei tipuri de nonrăspuns: „nu ştiu”, 
„nu răspund”, „nu e cazul”. În figura 4.5a definim nonrăspunsurile pentru variabila 
d3, din DCV 2010, care conţine informaţii despre anul de când respondentul are 
ocupaţia pe care a declarat-o la d2. Prin realizarea unui tabel de frecvenţă, am 
observat că d3 are două tipuri de nonrăspuns : „nu ştiu/nu răspund”, care a primit 
codul 99, şi „nu e cazul”, care a primit codul 97. 463 de respondenţi au primit 
codul 97 pentru că nu au o ocupaţie (sunt inactivi pe piaţa muncii), iar 165 nu 
au ştiut sau nu au dorit să precizeze anul de când au ocupaţia actuală. 

Optiunea Range plus one optional discrete missing values este folosită atunci 
când avem mai mult de trei tipuri de nonrăspuns: „nu ştiu”, „nu răspund”, „nu 
e cazul”, „întrebarea nu a fost adresată în anul respectiv” etc. De exemplu, în 
WVS 2012 avem coduri de la -5 la -1: „missing: unknown” (codul -5), „not 
asked in survey” (-4), „not applicable” (-3), „no answer” (-2), „don't know” 
(-1). La Low introducem -5, la high introducem -1. În figura 4.5b definim non- 
răspunsurile pentru o variabilă care are coduri de nonrăspuns de la -5 la -1, dar 
şi un cod 999. În principiu, această opţiune acoperă toate situaţiile posibile. 

De unde ştim ce coduri trebuie să introducem în aceste celule? Am precizat 
deja că realizăm un tabel de frecvenţă pentru fiecare variabilă pentru care vrem 
să definim nonrăspunsurile. Să luăm ca exemplu variabila d15, „Cât de mulţumit 
sunteţi de relaţiile din familie?” (tabelul 4.1). 


Tabelul 4.1. Tabel de frecvenţă înainte de definirea nonrăspunsurilor 



































d15 relatiile din familie 
Frequency | Percent | Valid Percent | Cumulative 
Percent 

Valid | 1 foarta proasta(e) 8 iT T Wi 

2 proasta(e) 14 1.2 1.2 1.9 

3 satisfacatoare 107 9.2 9.2 11.1 

4 buna(e) 666 57.4 57.4 68.5 

5 foarte buna(e) 289 24.9 24.9 93.4 

98 nu e cazul 42 3.6 3.6 97.0 

99 nu stiu/nu 35 3.0 3.0 100.0 

raspund 

Total 1161 100.0 100.0 




















Tabelul este realizat după ce am încheiat etapa de etichetare a variabilelor şi a 
valorilor variabilelor. Observăm că această variabilă are cinci răspunsuri valide : 
„foarte proastă(e)” (codul 1), „proastă(e)” (codul 2), „satisfăcătoare” (codul 3), 
„bună(e)” (codul 4) şi „foarte bună(e)” (codul 5). De asemenea, are două tipuri 
de nonrăspuns : „nu e cazul”, codul 98, şi „nu ştiu/nu răspund”, cumulate în codul 
99. Observati că nu există o regulă strictă care impune utilizarea aceloraşi coduri 
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în toate cercetările. Trebuie doar să existe o anumită consistenţă pentru a face 
mai uşoară tranziţia de la o cercetare la alta. Cei care au răspuns „nu e cazul” s-au 
gândit, probabil, că întrebarea se referă la o relaţie maritală de tip sot-sotie. Dacă 
inspectăm această ipoteză, observăm că toţi cei 42 de respondenţi din categoria 
„nu e cazul” (98) sunt necăsătoriți, divortati sau vaduvi. Aşadar, ei au considerat 
că nu pot răspunde la această întrebare. În mod normal, în faza de curăţare, dacă 
cercetătorului i se pare ciudat ca o persoană să nu răspundă la o întrebare, ar 
putea verifica chestionarele pentru o posibilă eroare de introducere sau ar putea 
chiar discuta cu operatorul de teren solicitând, uneori, refacerea chestionarului. 
Revenind la definirea nonrăspunsurilor, am aflat că trebuie să introducem în 
celulele Discrete missing values codurile 98 şi 99. 

Putem automatiza activitatea de definire a nonrăspunsurilor folosind sintaxa. 
Comanda este la fel de simplă ca celelalte două comenzi discutate: VARIABLE 
LABELS şi VALUE LABELS. Comanda pentru nonrăspunsuri este MISSING 
VALUES. Mai exact, pentru variabila d15 comanda este : 


MISSING VALUES d15 (98, 99). 


La fel ca la VALUE LABELS, putem utiliza aceeaşi linie de comandă pentru mai 
multe variabile care au coduri similare la nonrăspunsuri. De exemplu, succesiunea 
de variabile d15-d27 se află in această situaţie. Aşadar, comanda va arăta astfel : 


MISSING VALUES d15 d16 d17 d18 d19 d20 d21 d22 d23 d24 d25 d26 d27 
(98, 99). 


Observăm cât de uşor putem defini nonrăspunsurile în acest meniu faţă de 
meniul Variable View, unde am fi dat mai multe clickuri pentru fiecare variabilă 
în parte. În plus, oricând dorim, putem consulta sintaxa, reamintindu-ne ce am 
lucrat sau pentru a o rula din nou pe o bază „curată”. 

Pentru că orice proces de învăţare presupune căutare de informaţie, vă invit 
să aflaţi ce element din comanda MISSING VALUES puteţi şterge fără a afecta 
rezultatul final. 


4.3. Verificarea introducerii eronate a unor coduri 


Dacă am folosit un program de introducere a datelor care restricţionează operatorul 
de introducere să introducă greşit o valoare în afara amplitudinii răspunsurilor posibile, 
în principiu, atunci putem sări această etapă, deşi niciodată nu strică o verificare. 
Verificarea este o operaţie simplă care presupune doar inspectarea tabelelor 
de frecvenţă pentru fiecare variabilă din baza de date. Deja am precizat că aceste 
tabele se realizează din meniul Analyze > Descriptive statistics > Frequencies. 
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Trebuie să comparăm ce apare în tabel cu ceea ce este scris în chestionar. 
Această operaţiune poate fi realizată fie înaintea definirii nonrăspunsurilor, fie 
ulterior. Este util, în schimb, să fie încheiată operaţiunea de etichetare a valorilor 
variabilelor pentru a vedea ce reprezintă fiecare cod. 


4.4. Validarea logică prin urmărirea filtrelor 
şi a unor întrebări factuale 


Cei care au declarat că sunt elevi (codul 6), pensionari (codul 7), casnici (codul 8) 
sau şomeri (codul 9) la variabila d2, ocupaţia principală actuală, trebuiau să răspundă 
apoi direct la întrebarea d6. Aşadar, aceştia trebuie să aibă, la întrebările dintre d2 
şi d6, un cod de nonrăspuns de tipul „nu e cazul”. Pur şi simplu, întrebările dintre 
d2 şi d6 nu li se aplică. Dacă am lucrat corect în programul de introducere a datelor 
sau în alt program similar nu ar trebui să apară erori de introducere. Putem verifica 
simplu dacă filtrul a fost respectat, realizând un tabel de contingenţă folosind meniul 
Analyze > Descriptive statistics > Crosstabs între d2 şi fiecare dintre întrebările 
de până la d6. În tabelul 4.2 este prezentat un exemplu de încrucișare între d2 (ocupaţia 
principală actuală) şi d3 (statutul ocupational). Conform chestionarului, în celulele 
rezultate din intersecţia dintre rândurile ce conţin codurile 6, 7, 8 şi 9 şi coloanele 
date de răspunsurile valide la d4 şi codul 99 („nu ştiu/nu răspund”) ar trebui să apară 
valoarea 0, adică nici o persoană. Observăm că aici filtrul este respectat: apar per- 
soane doar la intersecţia dintre codurile 6-9 la d2 şi codul 97 („nu e cazul”) la d4. 


Tabelul 4.2. Tabel de contingenta ce verifică un filtru, dar este folosit pentru validare 















































logică (1) 
d2 ocupatia dvs. actuala (principala) * d4 statutul ocupational Crosstabulation 
Count 
d4 statutul ocupational Total 
1 2 pe cont 3 4 zilier | 97 | 99 
salariat| propriu | patron 
d2 1 agricultor 2 228 0 29 0 0| 259 
ice alla 2 muncitor (meserias) 215 14 1 12| O| 5| 247 
actuala |3 tehnician, maistru, 72 2 0 0 0; 0| 74 
(princi- functionar 
pala) 4 ocupatie cu studii 98 8 0 0 0 0| 106 
superioare 
6 elev, student 0 0 0 0| 52 0 52 
7 pensionar 0 0 0 0 | 267 0| 267 
8 casnic 0 0 0 0| 62 0| 62 
9 acum sunt somer 0 0 0 0| 82 0| 82 
10 patron 0 0 12 0 0 0| 12 
Total 387 252 13 41 | 463 5| 1161 
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Revenim la modul in care am realizat tabelul de contingenté. Deşi acestui 
subiect i se dedică o secţiune specială, cred că este util să vedem paşii elementari 
în realizarea acestui tip de tabel şi aici. Accesând meniul Analyze > Descriptive 
statistics > Crosstabs se deschide fereastra din figura 4.6. Un tabel de contin- 
genta are două variabile. O variabilă, prin categoriile ei, dă rândurile tabelului. 
Cealaltă variabilă, prin categoriile ei, dă coloanele tabelului. Fiecare celulă din 
tabel ne arată numărul persoanelor care se regăsesc în două categorii simultan : 
2 persoane sunt agricultori salariaţi, 215 sunt muncitori salariaţi, 8 persoane au 
o ocupaţie care necesită studii superioare şi lucrează pe cont propriu etc. Care 
celulă din tabel prezintă o informatie inconsistentă ? Cum puteţi explica aceasta 
inconsistenta şi ce ar trebui să faceţi pentru a o corecta? 


Figura 4.6. Crosstabs : realizarea unui tabel de contingenţă 
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Prefer să introduc în rând (celula Row) variabila care are cele mai multe 
variante de răspuns pentru a rezulta un tabel pe verticală, uşor de inserat într-o 
pagină A4 orientată portret. Pe coloană (celula Column) introduc cealaltă vari- 
abilă. Pentru ce avem nevoie acum este suficient să apăsăm OK. Va rezulta tabelul 
cu frecvențele absolute, adică cu celulele arătând numărul de agricultori care sunt 
salariaţi, numărul de agricultori care lucrează pe cont propriu, numărul de 
muncitori care sunt salariaţi ş.a.m.d. 
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Ati reuşit să observați inconsistenta? O persoană care a declarat că ocupaţia 
sa este muncitor a indicat ca statut ocupational faptul că este patron. Aici avem 
de-a face cu o validare logică a informaţiei conţinute de baza de date. Cei care 
au ales varianta 2 la d2 puteau răspunde la d4, deci nu avem un filtru. În schimb, 
logic ar fi ca un muncitor să nu se declare patron. Primul lucru pe care ar trebui 
să îl facem este să consultăm chestionarul completat. Dacă nu găsim răspunsul 
la această inconsistenta în el, atunci va trebui să discutăm cu operatorul de teren 
pentru a ne clarifica situaţia. 

Să presupunem că am identificat de unde vine această problemă. Am aflat că, 
de fapt, persoana respectivă are ocupaţia de patron. Deci a fost introdus greşit în 
baza de date codul 2 în loc de codul 10 la d2. Aşadar trebuie să modificăm 
informaţia în baza de date. Acest lucru se face prin recodificarea variabilei d2. 
Dar pentru a face recodificarea trebuie să aflăm id-ul unic al acelui respondent 
pentru a fi siguri că modificăm numai ce ne interesează. Acest lucru se face 
urmând mai mulţi paşi : 


e  filtrăm baza de date astfel încât să rămână activ doar cazul care are codul 2 
la d2 şi codul 3 la d4, adică muncitorul care a declarat statutul patron. Filtrul 
este: d2 = 2 & d4 = 3. Mergem în Data > Select Cases > If condition 
is satisfied > If > introducem condiţia > Continue > OK; 

e realizăm un tabel de frecvenţă pentru variabilele care sunt folosite pentru 
condiţie şi pentru variabila care conţine id-ul unic, aici nrchest ; 

e verificam dacă filtrul activ este cel dorit; 

e citim tabelul de frecvenţă pentru variabila nrchest şi aflăm că acel caz are id-ul 312 ; 

e dezactivăm filtrul. 


Acum putem trece la recodificarea variabilei d2, pentru că ea conţine eroarea. 
Recodificarea se va face din meniul Transform > Recode into Same Variables. 
Acest meniu va înlocui, pentru cazul cu id-ul 312, codul 2 cu codul 10. Figura 
4.7 prezintă etapele acestui proces : 


e Apăsând butonul If > Include if case satisfies condition, punem condiţia ca 
modificarea să fie realizată doar pentru cazul cu id-ul 312. Aici am notat şi 
că d2 = 2 & d4 = 3. Apăsăm Continue (figura 4.7b). 

e Apăsăm butonul Old and New Values. 

e {nlocuim codul 2 (Old Value > Value) cu codul 10 (New Value > Value). 
Apăsăm butonul Add, apoi apăsăm butonul Continue (figura 4.7c). 

e Am revenit în fereastra iniţială, unde apăsăm butonul OK. 

e Refacem tabelul de contingenţă dintre d2 şi d4, pentru a verifica dacă modi- 
ficarea s-a făcut conform aşteptărilor (tabelul 4.3). 
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Figura 4.7. Recode into Same Variables 
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Utilizarea condițiilor în meniul Recode into Same Variables nu este obliga- 
torie. Acest lucru a fost impus de situația discutată. De multe ori însă folosim 
doar comenzile activate de butonul Old and New Values. Fereastra care se 
deschide are mai multe secțiuni (figura 4.7b). În sectiunea Old Value introducem 
valorile iniţiale : cele pe care dorim să le recodificăm. În secţiunea New Value 
introducem valorile noi: cele în care vor fi recodificate valorile iniţiale. În sec- 
tiunea Old --> New, după ce apăsăm butonul Add, apar modificările pe care 
dorim să le facem. Aici am dorit să modificăm doar un cod: 2 în 10. De aceea 
am folosit Old Value > Value. Dacă am fi vrut să modificăm o serie de numere 
consecutive, să zicem 2-6 în 10, atunci am fi folosit Old Value > Range 2 
through 6. Dacă am fi vrut să modificăm o serie de numere consecutive de la 
cea mai mică valoare la o valoare anume, să zicem de la 1 (valoarea minimă) la 
4 (valoarea specifică), atunci am fi folosit Old Value > Range, LOWEST throug 
value: 4. Dacă am fi vrut să modificăm o serie de numere consecutive de la o 
valoare specifică la cea mai mare din serie, să zicem de la 4 (valoarea specifică) 
la 10 (valoarea maximă), atunci am fi folosit Old Value > Range, value through 
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HIGHEST: 10. Vom discuta despre recodificare în altă secţiune a lucrării. Ce 
trebuie reţinut aici este că folosirea meniului Recode into Same Variables 
suprascrie informaţia iniţială. Deci atenţie la ce modificări doriţi să faceţi. 


Tabelul 4.3. Tabel de contingenta care verifică un filtru, dar este folosit 
şi pentru validare logică (2) 









































d2 ocupatia dvs. actuala (principala) * d4 statutul ocupational Crosstabulation 
Count 
d4 statutul occupational Total 
1 2 pe 3 4 97 99 
salariat | cont | patron |zilier 
propriu 
d2 ocupatia |1 agricultor 2 228 0 29 0 0 259 
dvs. actuala | 2 muncitor 215 14 0 12 | 0 5 | 246 
(principala) | (meserias) 
3 tehnician, 72 2 0 0 0 0 74 
maistru, 
functionar 
4 ocupatie cu 98 8 0 0 0 0 106 
studii superioare 
6 elev, student 0 0 0 0 52 0 52 
7 pensionar 0 0 0 O | 267 0 267 
8 casnic 0 0 0 0 62 0 62 
9 acum sunt 0 0 0 0 82 0 82 
somer 
10 patron 0 0 13 0 0 0 13 
Total 387 252 13 41 | 463 5 1161 


























Aşadar, pe lângă verificarea filtrelor, realizăm şi validarea logică prin incru- 
cişarea unor variabile factuale. O variabilă factuală culege informaţii concrete 
care nu ţin de valori, atitudini, opinii, credinţe, evaluări. De exemplu, sexul sau 
vârsta respondentului sunt variabile factuale. Tot variabile factuale sunt salariul 
măsurat într-o unitate monetară, suprafaţa locuinţei în metri pătraţi, numărul de 
copii etc. În chestionare, din cauza neatentiei operatorului sau poate chiar dintr-o 
scăpare de design a cercetătorului, se mai întâmplă ca o persoană să declare ceva 
la o variabilă factuală, acel ceva fiind incompatibil cu ce declară la altă variabilă 
factuală aflată într-o relaţie logică cu cea dintâi. Un bărbat nu are voie să răspundă 
la întrebarea „Aţi făcut vreodată avort?”. În schimb, are voie să răspundă la 
întrebarea „Partenera dvs. de viaţă a făcut vreodată avort? ”. Cel care a declarat 
că nu suferă de vreo boală nu are voie să răspundă la întrebarea ,,Suferiti de o 
boală cronică ? ”. Dincolo de cele două tipuri de erori enunțate mai există o situaţie 
care, într-un fel, ţine de designul chestionarului, deci este o problemă a cercetă- 
torului. Realitatea din teren s-ar putea să fie mai complexă decât cea pe care o 
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cunoaşte sau şi-o imaginează cercetătorul. De exemplu, un cercetător s-ar putea 
aştepta ca o persoană care declară că este pensionar să nu mai ofere un răspuns 
valid la rubrica „Vă rugăm să ne spuneţi care a fost suma de bani încasată luna 
trecută din salarii”, ci doar la rubrica „Vă rugăm să ne spuneţi care a fost suma 
de bani încasată luna trecută din pensii”. Salariul, teoretic, este specific unei 
persoane angajate formal, cu contract de muncă. Totuşi, salariul poate fi atribuit 
şi persoanelor care nu sunt angajate formal, ci prestează diferite servicii informal 
(„la negru”). Când ne gândim la un pensionar ne imaginăm că salariul acestuia 
este pensia, deci nu mai prestează servicii, cel puţin formalizate. Nivelul de trai 
redus din România şi, implicit, al pensiilor îi determină pe mulţi pensionari să 
lucreze informal. De exemplu, un pensionar se poate „angaja” ca paznic de noapte 
la o firmă. Acesta primeşte o pensie, dar şi un salariu, chiar dacă acel salariu nu 
este înregistrat legal. Aici intervine altă problemă : să presupunem că cercetătorul 
admite că acest gen de situaţii este veridic, astfel încât îi va adresa întrebarea 
referitoare la salariu şi pensionarului. Pensionarul, în schimb, fiind conştient că 
salariul său nu este înregistrat legal, s-ar putea să refuze să răspundă la întrebarea 
legată de salariu şi să accepte să răspundă doar la întrebarea legată de pensie. Astfel 
apare nonrăspunsul şi, implicit, discuţia se mută în zona de distorsiune a realităţii, 
de modificare a reprezentativatii eşantionului. 

Revenind la problema validării logice prin încrucişarea variabilelor factuale, primul 
pas ce trebuie făcut este să identificăm în chestionar toate interacţiunile posibile dintre 
variabilele factuale. Apoi, realizând tabele de contingenta, aşa cum am discutat deja, 
scanăm datele pentru erori. Termenul „eroare” este poate prea tranşant. Cercetătorii 
trebuie să consulte chestionarele tipărite şi, eventual, să contacteze din nou respon- 
dentul pentru clarificări. Abia apoi se intervine în baza de date. Validarea logică poate 
fi inclusă chiar în partea de design a cercetării şi chestionarului. De exemplu, într-un 
studiu prin care se dorea estimarea incidentei consumului diferitelor tipuri de droguri, 
cercetătorul a introdus în lista de droguri şi unul fictiv. Dacă în chestionar apăreau 
răspunsuri valide la acest drog (respondentul „spunea” că a consumat, cu o anumită 
frecvenţă, în anumite condiţii etc.), atunci cercetătorul afla imediat că operatorul de 
teren nu a fost onest şi a completat el însuşi acel chestionar. 

În DCV 2010, există variabila d39: „Caracterizaţi măsura în care puteţi 
influenţa luarea deciziilor în organizaţia în care lucraţi” cu variantele de răspuns 
„foarte scăzută” (codul 1), „scăzută” (codul 2), „satisfăcătoare” (codul 3), 
„ridicată” (codul 4), „foarte ridicată” (codul 5). În chestionar, în dreptul acestei 
variabile, există şi varianta „nu e cazul” (codul 98). Logica este simplă: o 
persoană care nu are un loc de muncă nu poate să evalueze măsura în care are 
libertate de decizie acolo (organizaţie este un termen generic pentru toate locurile 
de muncă fie că acestea sunt în firme, instituţii publice, ONG-uri etc.). Prin 
urmare, trebuie să verificăm legătura logică cu variabila factuală d2, „ocupaţia 
dvs actuală principală”, care are 10 variante de răspuns: „agricultor” (codul 1), 
„muncitor (meseriaş)” (codul 2), „tehnician, maistru, funcţionar” (codul 3), 
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„Ocupaţie cu studii superioare” (codul 4), „altă ocupaţie” (codul 5), „elev, student” 
(codul 6), „pensionar” (codul 7), „casnic” (codul 8), „acum sunt şomer” (codul 9) 
şi „patron” (codul 10). Logic ar fi ca elevii/studenţii, pensionarii, casnicii şi 
şomerii, adică codurile 6, 7, 8 şi 9, să nu aibă răspunsuri valide la d39. Tabelul 
de contingenţă de mai jos (tabelul 4.4) ne arată o încălcare a acestei logici: există 
2 studenţi care evaluează libertatea de decizie ca fiind ridicată, 3 şomeri care o 
evaluează ca fiind foarte scăzută şi 4 şomeri care o evaluează ca fiind scăzută, 
1 pensionar care o evaluează ca fiind scăzută. 


Tabelul 4.4. Validare logică: tabel de contingenta 















































d2 ocupatia dvs. actuala (principala) * d39 masura in care puteti influenta 
luarea deciziilor in organizatia in care lucrati Crosstabulation 
Count 
d39 masura in care puteti influenta luarea Total 
deciziilor in organizatia in care lucrati 
1 2 3 4 5 98 | 99 
foarte | sca- | satisfa- | ridi- | foarte | nue 
sca- |zuta | catoare |cata| ridi- |cazul 
zuta cata 
d2 ocupatia |1 agricultor 8 15 26 4 1 197 | 8 | 259 
dvs. actuala |2 muncitor 43 66 77 29 9 18 4 | 246 
(principala) | (meserias) 
3 tehnician, 11 18 22 18 2 3 0 74 
maistru, 
functionar 
4 ocupatii 9 21 31 23 11 11 O | 106 
cu studii 
superioare 
6 elev, 0 0 0 2 0 50 0 52 
student 
7 pensionar 0 1 0 0 0 266 | O | 267 
8 casnic 0 0 0 0 0 62 0 62 
9 acum sunt 3 4 0 0 0 73 2 82 
somer 
10 patron 3 0 1 1 2 5 1 13 
Total 77 125 157 77 25 685 | 15 | 1161 





























Încă o dată: modificările nu se fac automat. Am verificat chestionarele şi am 
constatat următoarele situaţii : (1) studenţii sunt, de fapt, persoane care au ocupaţii 
cu studii superioare (să nu uităm că d2 cere răspuns unic); (2) cei 3 şomeri sunt 
agricultori, iar (3) cei 4 şomeri sunt muncitori (meseriaşi). Aşadar, trebuie să 
recodificăm variabila d2 pentru cazurile acestea. Dacă dorim să procedăm ca mai 
devreme, care sunt paşii pe care trebuie să îi parcurgeti pentru realizarea 
modificărilor ? 
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4.5. Construirea unor variabile noi 


Aceasta poate fi sau nu o parte a procesului de curăţare. Unii cercetători preferă să 
aibă anumite variabile create încă de la început, alţii consideră că le pot construi 
singuri pe măsură ce este nevoie de ele. În DCV 2010, există întrebarea d96 prin care 
respondentii sunt rugaţi să raporteze, în lei, sumele cheltuite pentru 9 variabile : 
alimente ; băuturi alcoolice, ţigări ; îmbrăcăminte, încălțăminte ; pentru locuinţă : 
chirie, întreţinere, reparaţii, abonamente, rate ; transport ; îngrijirea sănătăţii ; cultură, 
şcoală, cărţi, spectacole ; pensie alimentară; alte cheltuieli. În unele analize, am 
putea fi interesaţi să lucrăm cu variabila care conţine informaţii despre cheltuielile totale 
ale gospodăriei în luna precedentă. Aceasta este, evident, suma tuturor acestor nouă 
variabile. Suma aceasta va deveni o nouă variabilă în baza de date. Fiecare respondent 
va avea, în dreptul său, valoarea însumată a tuturor cheltuielilor efectuate. 

Pentru a calcula această sumă, folosim meniul Transform > Compute (figura 4.8). 
Decidem că numele variabilei va fi „chtot”. Prefer numele scurte, formate doar 
din litere şi, eventual, cifre, pentru că folosesc anumite programe de statistică 
specializate cum ar fi HLM (Raudenbush et al., 2011), care solicită aceste spe- 
cificatii. Dacă nu le respect, programul va redenumi variabilele şi, de multe ori, 
această operaţie automată creează nume cu care este greu de lucrat. 


Figura 4.8. Crearea de noi variabile (Compute) 













































































Target Yariable: Numeric Expression: 
chtat = SUM(d36_1,2) 
Type & Label... 
ofl 082 |a] | + | 
oil ass aas - 
Function group: 
dl cea eres f = 
sil ces Ld Ldk Lele] TT 
all 86 - Arithmetic 
E| -J [===] Lall a]l] CDF & Noncentral CDF 
di ar Conversion 
be z F B E IE E | Current Date/Time 
dao (al Lalla | | a | dl Cate Arithmetic > 
Eunctions and Special Variables: 
d31 E 
de BOA Cee [2] E* : 
Fv Uniform 
ri E UM(numexpr,numexpr[,..]). Numeric. Returns the sum Fy Weibull 
f its arguments that have valid, nonmissing values. This <a 
L d95 unction requires two or more arguments, which must B 2 
E d36_1 e numeric. You can specify a minimum number of valid Si Chisq 
4 996 _1necesara rguments for this function to be evaluated. Sig.F 
1962 L Sin 
Da b art 
) String 
| If... (optional case selection condition) Strune 
: Sum v 














K || Paste | Reset || Cancel || = ] 








CURĂȚAREA ŞI VALIDAREA UNEI BAZE DE DATE 93 


La Target Variable vom scrie numele variabilei pe care o realizăm, aici chtot. 
La Numeric Expression vom scrie formula care ne dă nouă variabilă. Putem 
folosi două abordări, în funcţie de necesităţi: (1) folosim funcţiile pe care le 
oferă SPSS, cum ar fi funcţia SUMO, sau (2) introducem noi o expresie de tipul 
a+b+e+...+n. Pentru moment, folosim funcţia SUM) pe care o aducem in 
Numeric Expression din secţiunea Functions and Special Variables. Mai întâi, 
dăm click în secţiunea Function group pe All, pentru a se activa funcţiile din 
secţiunea Functions and Special Variables. Apoi căutăm funcţia SUM() folosind 
acelaşi procedeu ca în lista de variabile din orice meniu ori, pur şi simplu, utilizând 
scroll-ul. Când o găsim, dăm dublu click pe ea şi vom vedea că va apărea în 
Numeric Expression. Initial, ea arată astfel: SUM(?, ?). Ştergem semnele de 
întrebare, căutăm în lista de variabile din stânga ceea ce ne interesează, aici 
succesiunea d96_1-d96_9, dăm, pe rând, dublu click pe variabile sau le introducem 
cu săgeata în dreapta, punând virgulă între ele. Apăsăm OK. Putem merge în 
Data View sau Variable View să vedem variabila. Variabilele noi sunt create la 
sfârşitul bazei de date. Putem, în loc de funcţia SUMO, să adunăm pur şi simplu 
variabilele respective. Adică, în Numeric Expression, să fi scris: d96_1 + d96 2 + 
d96 3 + d96 4 + d96 5 + d96 6 + d96 7 + d96 8 + d96 9. Rezultatul 
este diferit şi vine din modul în care SPSS tratează nonrăspunsurile. Să presu- 
punem că la aceste întrebări există persoane care au refuzat să răspundă sau au 
declarat că nu ştiu să răspundă. Aceste valori nu sunt valide şi nu vor fi luate în 
calcul la sumă dacă le-am definit în coloana Missing din Variable View sau 
folosind comanda MISSING VALUES în sintaxă. Dacă folosim funcţia SUMO, 
atunci variabila chtot va conţine suma variabilelor chiar dacă, la una sau mai 
multe dintre ele, respondentul nu a indicat o valoare validă, ci a oferit, în schimb, 
un nonrăspuns. Dacă folosim adunarea, atunci variabila chtot va conţine suma 
pentru respondentii care au oferit răspunsuri valide la toate variabilele din şir, 
ştergându-i pe ceilalţi. Deci în ultima variantă o să avem mai puţine valori valide 
în variabila nou-creată, pentru că este folosită doar informaţia completă, pe când 
în prima variantă o să avem mai multe valori valide pentru că este folosită toată 
informaţia disponibilă. Care variantă este corectă? Răspunsul nu este atât de 
evident. Aici, la cheltuieli, am putea folosi şi informaţia parţială notând totuşi în 
lucrarea pe care o scriem această limită a analizei. Dacă avem o variabilă latentă, 
cum ar fi atitudinea faţă de fumat măsurată printr-o scală compusă care conţine 
5 itemi, atunci poate ar fi bine să folosim informaţia completă : altfel, scorul, 
adică atitudinea, s-ar baza pe o măsurătoare incompletă. Cel mai onest ar fi să 
construim ambele variabile, să rulăm analizele dorite cu ambele variabile separat 
şi să vedem dacă rezultatele se schimbă substanţial. 

Variabilele nou-create de noi nu sunt etichetate automat. Va trebui să rulăm de 
fiecare dată sintaxele VARIABLE LABELS şi VALUE LABELS, în funcţie de nevoi. 

O altă situaţie, destul de frecvent întâlnită, în care se impune folosirea meniului 
Transform > Compute se referă la calcularea vârstei. În chestionar, respondentul 
nu este întrebat ce vârstă are, ci în ce an s-a născut. În analize însă, suntem 
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interesaţi să lucrăm cu vârsta, de aceea va trebui să creăm această variabilă în 
baza de date. Vârsta va fi egală cu anul aplicării chestionarului minus anul naşterii. 
În DCV 2010, respondentul este rugat să îşi declare vârsta în ani impliniti, situaţie 
care nu se aplică aici. Există însă variabila d3 care înregistrează anul din care 
respondentul are ocupaţia declarată la d2. În analize ne interesează să lucrăm cu 
variabila vechime în muncă măsurată în ani. Decidem să creăm această variabilă 
care se va numi ,,vechime”. Mai întâi, trebuie să ne asigurăm că la d3 sunt definite 
nonrăspunsurile. Observăm că în această bază avem codul 97, aplicat celor care 
nu au o ocupaţie în prezent, şi codul 99, aplicat celor care nu au vrut să răspundă 
sau nu au ştiut unde să se încadreze în variantele puse la dispoziţie de cercetător. 
Dacă nu facem acest lucru, vor fi luate în considerare la calcul şi aceste coduri, 
noua variabilă conţinând informaţii eronate. Evident va trebui să o etichetăm pentru 
a şti în continuare ce reprezintă. În cadrul unei analize, lucrăm cu multe variabile 
şi este foarte uşor să uităm ce am făcut anterior, mai ales dacă lăsăm o pauză de 
câteva zile între început şi sfârşit şi lucrăm în mai multe proiecte simultan. 


Sir dă 


le va folosi pe cele care îi sunt utile în analize. 


4.6. Exerciţii 


Pentru aceste exerciţii utilizăm baza de date şi/sau chestionarul World Values 
Survey 2012 rezultat(ă/e) în urma aplicării chestionarului în România. Baza de 
date poate fi descărcată de pe pagina de internet a Grupului Românesc pentru 
Studiul Valorilor Sociale (http : //www.romanianvalues.ro). 


1. Deschideţi baza de date finală creată la exerciţiul 13 din capitolul 2. Definiti 
proprietăţile variabilelor din baza de date în Variable View. 

2. Realizati câte un tabel de frecvenţă pentru fiecare variabilă din baza de date. 
Există coduri introduse eronat? Dacă da, cum explicati această greşeală ? 

3. Identificati în cele patru pagini de chestionar alese în exerciţiile din capitolul 2 
întrebările filtru. Verificaţi dacă filtrele au fost respectate. 

4. Identificati, în cele patru pagini de chestionar, variabile care pot fi folosite în 
procesul de validare logică. Verificaţi dacă există situaţii în care logica a fost 
încălcată. 

5. Deschideţi baza de date WVS 2012. Realizaţi câte un tabel de frecvenţă pentru 
fiecare variabilă din chestionar. Există coduri introduse eronat? Dacă da, cum 
explicati această greşeală ? 

6. Identificati în chestionarul WVS 2012 întrebările filtru. Verificaţi dacă filtrele 
au fost respectate. 

7. Identificati în chestionarul WVS 2012 variabile care pot fi folosite în procesul 
de validare logică. Verificaţi dacă există situaţii în care logica a fost încălcată. 


5. Gestionarea variabilelor 


Despre acest subiect am mai discutat. Am învăţat să modificăm o variabilă 
folosind Transform > Recode into Same Variables. De asemenea, am învăţat să 
creăm o variabilă nouă folosind o funcţie sau o formulă, prin intermediul 
Transform > Compute. În acest capitol dezvoltăm acest subiect. O mare parte 
din activitatea de analiză cantitativă a datelor este destinată pregătirii variabilelor. 

Voicu, Rusu şi Comşa (2013) vor să explice solidaritatea românilor. Solidaritatea 
este, pentru aceştia, o atitudine faţă de alte persoane care denotă cooperare, interes, 
preocupare, sprijin etc. Solidaritatea este măsurată printr-un scor compozit obţinut 
prin cumularea răspunsurilor la mai mulţi itemi. Factorii care determină solida- 
ritatea sunt orientarea postmaterialistă sau materialistă, religiozitatea şi compor- 
tamentul religios, identificarea naţională, încrederea generalizată, individualismul, 
clasa socială, vârsta, venitul, educaţia, sexul şi tipul de localitate de rezidenţă. 
Analiza prin care doresc să testeze ipotezele este regresia liniară multiplă, tehnică 
prezentată într-un capitol al acestei cărţi. Observăm că modelul explicativ propus 
de autori este destul de complex. Fiecare variabilă din model, începând cu cea 
dependentă (solidaritatea), trebuie pregătită pentru analiză. Pregătirea se va face 
ţinând cont şi de caracteristicile pe care le pot avea variabilele în analiza de 
regresie liniară. Din acest motiv, informaţiile despre cum gestionăm variabilele 
capătă un rol esenţial în procesul de analiză cantitativă. 

În acest capitol vom discuta despre meniul Transform > Recode into Different 
Variables şi vom afla câteva informaţii noi despre meniul Transform > Compute. 


5.1. Crearea unei alte variabile utilizând meniul 
Recode into Different Variable 


Înainte de a începe analiza datelor, vă recomand să salvaţi într-un loc sigur baza 
de date in forma primită de la cei care au curatat-o. Aceasta va fi baza de referinţă 
la care apelăm atunci când am pierdut informaţii din copia pe care lucrăm. 

De exemplu, eu prefer să şterg codurile de nonrăspuns din baza de date, lăsând 
celulele respective goale. Astfel SPSS le va trata tot timpul ca missing values : 
nu mai există riscul să obţin rezultate greşite, pentru că am uitat să le definesc 
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in coloana Missing din Variable View sau folosind comanda MISSING VALUES 
din sintaxă. Această preferinţă poate fi satisfăcută folosind meniul Transform > 
Recode into Same Variables. Dar odată rulată comanda, am şters acea informaţie 
din variabilele cu care lucrez. Dacă, ulterior, doresc să realizez un profil al celor 
care au declarat că nu ştiu răspunsul la o întrebare şi să îl compar cu profilul 
celor care nu vor să răspundă la aceeaşi întrebare, atunci nu mai pot face acest 
lucru. Să ne gândim la toate veniturile unei persoane. Aceasta poate să câştige 
bani din salariul la principalul loc de muncă, dar poate avea şi un loc de muncă 
secundar, unde lucrează pe proiect. De asemenea, poate avea un cont de economii 
şi astfel primeşte lunar o dobândă. Toate aceste venituri se adună şi rezultă venitul 
lunar total al persoanei respective. Cercetătorul doreşte să estimeze venitul mediu 
al românilor pentru luna februarie a anului 2014. Va pune în chestionar o rubrică 
de forma: „Dacă adunaţi veniturile din toate sursele, vă rog să îmi spuneţi câţi 
bani aţi câştigat dvs. personal în luna februarie”. Respondentul trebuie să apro- 
ximeze o sumă dacă nu o cunoaşte pe cea exactă. În teren, unii respondenţi ne 
oferă un răspuns. Alţii, în schimb, refuză să facă acest lucru. Motivele sunt 
multiple : lucrează „la negru”, operatorul nu le inspiră încredere să declare o 
informaţie atât de personală etc. În fine, cei care sunt mai puţin preocupaţi de 
gestionarea lunară a veniturilor lor s-ar putea să nu ştie şi, decât să ofere un 
răspuns greşit, preferă să aleagă această variantă de răspuns. În baza de date, la 
introducere, fiecare dintre aceste situaţii primeşte codul corespunzător. Deci 
variabila va avea valori de la O la cel mai mare venit şi codurile 98 (nu ştiu) şi 
99 (nu răspund). Ipoteza mea este că cei care au declarat că nu ştiu au alte 
caracteristici decât cei care au refuzat să răspundă. Dacă vreau să le compar 
caracteristicile şi am şters codurile, fără să fi păstrat o copie a bazei originale, 
nu mai pot face acest lucru. Concluzia: poate ar fi fost mai bine să creez o 
variantă nouă în care am şters codurile de nonrăspuns, păstrând-o şi pe cea iniţială. 
Să nu confundați ceea ce povestesc aici cu definirea nonrăspunsurilor din capitolul 
precedent. Definirea nonrăspunsurilor presupune că am păstrat codurile lor, numai 
că le dezactivăm din analizele pe care le rulăm. Eu vorbesc despre ştergerea fizică 
din bază. 

O altă situaţie în care putem folosi Recode into Different Variables este 
atunci când vrem să prezentăm un tabel care conţine încrucişarea dintre o variabilă 
măsurată metric, cum ar fi vârsta, şi încrederea în oameni. Vârsta este înregis- 
trată în ani impliniti: 18, 19, 20 etc. Încrederea în oameni este înregistrată 
folosind două variante de răspuns: „se poate avea încredere în cei mai mulţi 
oameni” sau „e mai bine să fii atent în relaţiile cu oamenii”. Dacă am realiza 
un tabel de contingenta între cele două variabile, ar fi inutil, pentru că vârsta 
are foarte multe valori (în WVS 2012 pentru România, între 18 şi 85 de ani). 
În această situaţie, alegem să recodificăm vârsta, adică să creăm o variabilă cu 
câteva categorii alese după un criteriu teoretic întemeiat stabilit de cercetător. 
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Am putea alege categoriile: 18-29, 30-39, 40-49, 50-59, 60+. Observăm că 
pierdem informaţie. Aducem în aceeaşi categorie persoane de vârste diferite. 
De aceea categoriile nu se fac la întâmplare, ci motivat. Persoanele care sunt 
incluse în aceeaşi categorie trebuie să aibă trăsături comune, dar şi diferite faţă 
de ale persoanelor din celelalte categorii. Dacă folosim Recode into Same 
Variables, pierdem informaţia detaliată şi nu mai avem cum să o recuperăm. 
Dacă folosim Recode into Different Variables, creăm o variabilă nouă care 
conţine categoriile respective şi o păstrăm pe cea originală cu toată informaţia. 
Pe parcursul analizei, s-ar putea să ne trebuiască alte categorii de vârstă, să zicem 
18-24, 25-29 etc. Putem să le obţinem oricând, pentru că avem variabila iniţială. 
Aici trebuie să facem trimitere către procesul de elaborare a întrebărilor din 
chestionar. Există cele patru niveluri de măsurare teoretice : nominal, ordinal, 
interval şi raport. Sintetic, proprietăţile acestora sunt prezentate în tabelul 5.1. 


Tabelul 5.1. Niveluri de măsurare 

















Nominal | Ordinal | Interval Raport 
Categorii Da Da Da Da 
Categorii ordonate Da Da Da 
Distanţa dintre categoriile ordonate Da Da 
este egală 
Număr Da 




















Nivelul de măsurare cel mai slab din punct de vedere statistic este cel 
nominal. Sexul are două categorii: masculin şi feminin. Suntem obişnuiţi ca 
acestora să le fie atribuite codurile 1 şi 2. Dar codurile acestea puteau fi foarte 
bine înlocuite cu 1001 şi 23. Nu avea nici o importanţă. Sexul feminin nu este 
pe locul 2, pentru că primeşte codul 2, după nici un criteriu. La fel, sexul 
masculin nu este pe locul 1, pentru că primeşte codul 1, tot după nici un criteriu. 
O discuţie detaliată a acestor concepte este întâlnită în orice manual de meto- 
dologie cantitativă sau de statistică. Aş sublinia doar această idee: dacă puteţi 
măsura o variabilă folosind un nivel de măsurare de raport, atunci faceţi acest 
lucru. Dacă nu se poate utiliza un nivel de măsurare de raport, atunci căutaţi 
să folosiţi unul de interval sau măcar ordinal. Dacă nici acest lucru nu este 
posibil, atunci folosiţi un nivel nominal. Dintr-un număr putem face oricâte 
categorii şi de orice fel dorim. Din categorii nu putem face numere. Am văzut 
deseori chestionare în care vârsta este înregistrată sub formă de categorii. Oricât 
de detaliate ar fi, tot se pierde informaţie. Aş măsura o variabilă care este 
metrică sub formă de categorii, doar dacă mă ajută să reduc numărul de non- 
răspunsuri. Dar, în chestionar, aş utiliza ambele variante. De exemplu, aş întreba 
care este venitul din luna trecută, lăsând posibilitatea să declare o sumă şi apoi 
aş întreba şi în ce categorie se încadrează. Evident, operatorul de teren, dacă 
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a aflat suma, o va încadra singur in categoria aferentă. Dar dacă nu a aflat 
suma, datorită refuzului, poate află măcar categoria. 

Variabilele dummy sunt un alt exemplu de utilizare a meniului Recode into 
Different Variables. O variabilă dummy ia valorile 1 sau 0. Valoarea 1 este 
atribuită caracteristicii care ne interesează, iar valoarea 0 celeilalte sau celorlalte. 
În regresia liniară muliplă nu pot folosi sexul codificat cu 1 şi 2. Aleg cine primeşte 1, 
să zicem bărbaţii, iar 2 va fi transformat în 0. Dacă vreau să folosesc starea civilă 
ca predictor al fericirii şi presupun că fenomenul explicat variază diferit pentru 
cei căsătoriţi şi pentru cei care au sau nu o relaţie, procedez astfel: 


e presupun că cei căsătoriţi sunt cei mai fericiţi, aşadar voi alege drept referinţă 
această categorie. Pentru ea nu mai creez un dummy ; 

e creez un dummy în care 1 este atribuit celor care au o relaţie, dar nu sunt 
căsătoriţi, iar 0 le este atribuit celor care nu au o relaţie, dar şi celor 
căsătoriţi ; 

e creez un al doilea dummy în care 1 este atribuit celor care nu au o relaţie, fie 
sunt divortati, fie sunt văduvi, iar 0 este atribuit celor care nu au o relaţie si 
celor care sunt căsătoriţi. 


Voi prezenta meniul, folosind o altă situaţie care poate fi întâlnită în procesul 
de analiză : inversarea scalei de răspuns. În analiza elaborată de Voicu, Rusu şi 
Comşa (2013), religiozitatea este măsurată ca gradul de importanţă acordată 
religiei. În chestionarul folosit, întrebarea este „Vă rugăm să ne spuneţi cât de 
importante sunt următoarele lucruri în viata dumneavoastră : ...religia?” şi are 
patru variante de răspuns, de la „foarte importantă” (codul 1) la „deloc impor- 
tantă” (codul 4). Pentru ca rezultatul analizei de regresie să fie mai uşor de citit, 
autorii au inversat scala astfel încât codul mare (4) să fie atribuit etichetei pozitive 
(„foarte importantă”), iar codul mic (1) să fie atribuit etichetei negative („deloc 
importantă”). Măsura solidarităţii este orientată similar: un scor mare indică 
solidaritate ridicată. Astfel, dacă atunci când creşte religiozitatea creşte şi soli- 
daritatea, coeficienţii de regresie vor avea semnul plus, iar interpretarea va fi 
intuitivă. Accesând meniul Transform > Recode into Different Variables, se 
deschide fereastra din figura 5.la. Structura ferestrei ne este partial familiară, 
pentru că seamănă cu cea de la Recode into Same Variables. Butonul If este 
folosit dacă dorim să punem o condiţie care să fie activă atunci când creăm 
variabila nouă. În secţiunea Output Variable, care iniţial este inactivă, introducem 
un nume pentru variabila pe care o creăm (Name) şi o etichetă care explică numele 
(Label). Completarea informaţiei la Name este obligatorie. La Label este opţională, 
dar recomandată. Altfel ar trebui să mergem în Variable View la coloana Label 
sau în sintaxă şi să folosim comanda VARIABLE LABELS. Figura 5.1b prezintă 
cum se modifică interfaţa. 
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Figura 5.1. Meniul Transform > Recode into Different Variables 
(a) 


E F into Different Variables 





Input Variable -> Output Variable: 





(b) 


+] Recode into Different Variables 








Numeric Variable -> Output Variable: 


[>] 
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După ce introducem variabila V9 din lista de variabile din stânga în secțiunea 
Numeric Variable --> Output Variable, se activează Name şi Label. Numele 
trebuie să respecte regulile programului. Eu prefer să adaug în coada numelui variabilei 
inițiale expresia „rec” de la „recodificată”. Opțiunea dumneavoastră poate fi alta. La 
Label prefer să pun în etichetă informaţia „recodificare din variabila inițială”. 
Astfel, am o evidență clară a variabilelor pe care le-am creat. Odată completate 
aceste informaţii, trebuie să apăsăm butonul Change. Făcând acest lucru, dispare 


Numeric Yariable -> Output Variable: 
vs --> v9rec 





semnul de întrebare (V9 --> ?) şi apare: 

Următorul pas presupune să modificăm codurile conform nevoilor de analiză. 
Apăsăm butonul Old and New Values şi se deschide fereastra din figura 5.1c. 
Fereastra are trei secţiuni: Old Value, New Value şi cea care ne arată ce 
transformări facem. Mai întâi, trebuie să introducem în fereastra Old Value 
codurile variabilei iniţiale pe care le dorim transformate într-un fel sau altul. Aici 
dorim să inversăm scala: 1 devine 4, 2 devine 3, 3 devine 2, 4 devine 1. Se 
impune transformarea codurilor unul câte unul. O să lucrăm cu Value. După 
fiecare transformare, apăsăm butonul Add. Variabila V9 are şi două coduri de 
nonrăspuns, -2 şi -1. Pentru că nu vrem să le păstrăm în variabila nouă, le vom 
defini System-missing. Introducem la Range -2 la -1 şi bifăm System-missing. 
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Variabila independentă pentru autoevaluarea stării de sănătate, care are numele 
VII în baza de date, are distribuţia din tabelul 5.2. O persoană nu a oferit un 
răspuns valid. Codurile sunt etichetate invers decât îmi doresc: codul mic (1) 
este asociat etichetei pozitive, iar codul mare (4) este asociat etichetei negative. 
Pentru că dorim să interpretăm efectul pozitiv al autoevaluării sănătăţii asupra 
satisfactiei cu viata, aşteptându-ne la o relaţie pozitivă (semn + la coeficientul 
de regresie), recodificăm variabila astfel încât codurile să fie în acord cu etichetele. 
De asemenea, o să ştergem din bază nonrăspunsul respectiv. 


Tabelul 5.2. Tabel de frecvenţă pentru autoevaluarea stării de sănătate 



































V11 State of health (subjective) 
Frequency | Percent | Valid Percent | Cumulative Percent 
Valid 1 Very good 232 15.4 15.4 15.4 
2 Good 747 49.7 49.7 65.2 
3 Fair 390 25.9 25.9 91.1 
4 Poor 134 8.9 8.9 100.0 
Total 1502 99.9 100.0 
Missing |-2 No answer 1 A 
Total 1503 100.0 














Aşadar, mergem în meniul Transform > Recode into Different Variables. Dacă 
nu am închis baza de date între timp, o să observăm comenzile de la recodificarea 
anterioară. Pentru a nu ne complica, apăsăm butonul Reset, acesta ştergând orice 
informatie care era prezentă în meniul respectiv. Trecem V11 în dreapta. fi dăm un 
nume : vilrec. Etichetăm numele : autoevaluarea stării de sănătate (recodificare din 
V11). Apăsăm Change. Apăsăm Old and New Values. Transformăm pe rând fiecare 
valoare folosind Value de la Old Value: 1 --> 4, 2 --> 3,3 --> 2, 4 --> 1, -2 --> 
System-missing. Apăsăm butonul Add după fiecare modificare. Continue si OK. 

După recodificare trebuie să verificăm dacă am lucrat corect. În cazul creării 
unei noi variabile prin recodificare, vom realiza un tabel de contingenté (Crosstab) 
dintre variabila iniţială (V9 sau V11) şi variabila nou-creată (v9rec sau vllrec). 
Acest tabel se realizează din meniul Analyze > Descriptive Statistics > Crosstabs. 
Pe rând (Row) introducem variabila cu mai multe categorii. Pe coloană (Column) 
introducem variabila creată (tabelul 5.3). 

În primul rând, observăm că nu avem etichete pentru codurile variabilei 
nou-create: 1, 2, 3 şi 4. Deci trebuie să le introducem în coloana Values din 
Variable View sau folosind sintaxa de mai jos. Trebuie reţinut că acesta este, de 
cele mai multe ori, primul pas după recodificare. 

VALUE LABELS v9rec 

1 not at all important 

2 not very important 

3 rather important 

4 very important 
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După ce am rulat această sintaxă, realizăm din nou tabelul. Rezultatul este 
vizibil în tabelul 5.3b. Acum este mai uşor de citit. Al doilea lucru pe care îl 
observăm este că nu mai apar coduri de nonrăspuns. Dacă lucrăm cu user-missing 
sau system missing, comanda Crosstabs le va ignora. Pe noi ne interesează, în 
acest tabel, să vedem dacă etichetelor le corespund oamenii potriviţi. Aceştia sunt 
distribuiţi pe diagonală, deci am lucrat corect. Atenţie însă: dacă am etichetat 
greşit, programul nu ne va avertiza. Să fim atenţi la fiecare etapă de lucru. 


Tabelul 5.3. Tabel de contingenţă pentru verificarea corectitudinii recodificării 


(a) 
















































































V9 Important in life: Religion * v9rec importanta religiei in viata (recodificare 
din v9) Crosstabulation 
Count 
v9rec importanţa religiei în viata Total 
(recodificare din v9) 
1 2 3 4 
V9 Important in 1 Very 0 0 0 758 758 
life: Religion important 
2 Rather 0 0 500 0 500 
important 
3 Not very 0 192 0 0 192 
important 
4 Not at all 48 0 0 0 48 
important 
Total 48 192 500 758 1498 
(b) 
V9 Important in life: Religion * v9rec importanta religiei in viata (recodificare 
din v9) Crosstabulation 
Count 
v9rec importanta religiei in viata (recodifi- | Total 
care din v9) 
1 not at 2 not 3 rather | 4 very 
all very important | important 
important | important 
V9 Important in |1 Very 0 0 0 758 758 
life: Religion important 
2 Rather 0 0 500 0} 500 
important 
3 Not very 0 192 0 0 192 
important 
4 Not at all 48 0 0 0 48 
important 
Total 48 192 500 758| 1498 
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5.2. Crearea unei alte variabile utilizând meniul 
Compute 


Am discutat deja o situaţie în care folosim Transform > Compute. Pentru că 
mi se pare important, am să insist prezentând, pentru început, cum realizăm o 
variabilă de ponderare (weight). 

Să presupunem că ponderăm în funcţie de mediul de rezidenţă, vârstă şi sex. 
Mai întâi trebuie să stabilim care sunt categoriile pentru fiecare criteriu. Categoriile 
se aleg şi în funcţie de cum este disponibilă informaţia pentru acestea. Am ales 
categoriile urban şi rural pentru mediul de rezidenţă şi categoriile 18-34, 35-49, 
50-64, 65+ pentru vârstă. Pentru sex avem doar două categorii: bărbat sau 
femeie. Căutăm la Institutul Naţional de Statistică informaţii pentru tabelul : 





Vârstă | Bărbaţi în Urban | Femei în Urban | Bărbaţi în Rural | Femei în Rural | Total 
18-34 
35-49 
50-64 
65+ 

Total 









































Mai concret, informaţiile pe care trebuie să le punem în fiecare celulă sunt 
numerele de persoane care se încadrează simultan în toate cele trei categorii desemnate 
de rândurile şi coloanele tabelului. De exemplu, bărbaţii care locuiesc în urban şi au 
vârsta cuprinsă între 18-34 de ani ar putea fi în număr de 1.600.000. Realizăm acelaşi 
tabel şi pentru eşantion. Evident, numerele din fiecare celulă vor fi mult mai mici, dată 
fiind mărimea eşantionului. De exemplu, în eşantion ar putea fi incluşi 106 bărbaţi care 
locuiesc în urban şi au vârsta cuprinsă în intervalul 18-34 de ani 

Calculăm proporţia fiecărei celule din totalul populaţiei, respectiv a eşantio- 
nului. Vor rezulta două noi tabele care conţin aceste proporţii. Apoi vom împărţi 
proporţiile din populaţie la proporţiile din eşantion : 





Vârstă | Bărbaţi în Urban | Femei în Urban | Bărbaţi în Rural | Femei în Rural | Total 
18-34 |9,16/7.07=1,2942 
35-49 
50-64 
65+ 

Total 









































Rezultatul final reprezintă valorile pe care le va lua ponderea pentru fiecare 
dintre aceste categorii compuse. Această nouă variabilă trebuie introdusă în SPSS. 
Realizăm acest lucru cu meniul Transform > Compute. In secţiunea Target 
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Variable, dăm un nume variabilei pe care o realizăm, căreia îi atribuim şi o 
etichetă în secţiunea Label din fereastra care se deschide apăsând butonul Type & 
Label (figura 5.2a). 


Figura 5.2. Transform > Compute: crearea unei variabile de ponderare 
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(c) 


a : 
ev © Include all cases 


e ya E 


Ê vza (3) Include if case salisfies condition: 





& Va | mediuagesex = 1 


Hv +] 
Avs 


Observăm semnul ,,=” în dreapta câmpului Target Variable. În dreapta acestui 
semn, în câmpul Numeric Expression, introducem formula prin care realizăm 
noua variabilă. În cazul de faţă, nu avem o formulă: doar imputăm valoarea 
1.2942 pe care o introducem fie din tastatură, fie folosind butoanele din centrul 
ferestrei (figura 5.2b). Dacă apăsăm OK acum, variabila de ponderare (weight) 
va avea valoarea 1.2942 pentru toate persoanele din eşantion. Însă această pondere 
este doar pentru categoria bărbaţilor care locuiesc în urban şi au vârsta în intervalul 
18-34 de ani. De aceea trebuie să folosim şi butonul If... din colţul stânga jos al 
ferestrei. Apăsând acest buton se deschide fereastra din figura 5.2c. 

Iniţial este bifată opţiunea Include all cases. Pentru că vrem să punem o 
condiţie, vom bifa Include if case satisfies condition şi vom introduce condiţia 
în câmpul activat. În exemplul nostru, am presupus că în baza de date există 
deja o variabilă care reflectă apartenenţa simultană la cele trei categorii. Aceasta 
are numele mediuagesex şi conţine 16 categorii. Codul 1 reprezintă categoria 
bărbaţi care locuiesc în mediul urban şi au vârsta între 18 şi 34 de ani. Pentru 
că ponderea 1.2942 este ponderea pentru această categorie, atunci vom introduce 
aici condiţia mediuagesex = 1. Astfel SPSS va atribui ponderea 1.2942 doar 
categoriei 1 de la variabila mediuagesex. Repetăm procedura pentru toate 
celelalte categorii. 

Un alt exemplu. Relaţia dintre satisfacția cu viata şi vârstă nu este liniară 
(Lelkes, 2008). Adică satisfacția nu creşte/descreşte, constant, odată cu înaintarea 
în vârstă. Mai degrabă, cele două au o relaţie nonlineară asemănătoare cu cea 
reprezentată in figura 5.3. Cel mai înalt nivel al satisfactiei cu viata este trăit în 
tinereţe, când grijile materiale şi sociale nu sunt atât de multe, părinţii încă îi 
întreţin pe copii etc. Urmează momente cum ar fi cel al intrării pe piaţa muncii, 
al formării propriei familii, al accentuării independenţei financiare etc. Copiii 
pleacă de acasă, grijile cu privire la siguranţa locului de muncă se accentuează 
etc. Vine vârsta pensionării, grijile legate de profesie se reduc, dar apar probleme 
de sănătate asociate vârstei, moartea partenerului de viaţă etc. Pe de altă parte, 
oamenii îşi pot urmări interesele personale mai mult decât înainte, cel puţin prin 
prisma timpului liber de care dispun. Toate acestea sunt explicaţii plauzibile pentru 
acest tip de relaţie dintre vârstă şi satisfacția vieţii. 
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Figura 5.3. Relatie nonliniară dintre vârstă şi satisfacția cu viata 
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Dacă vrem să aplicăm o modelare liniară, trebuie să includem şi acel punct de 
inflexiune în analiză. Acest lucru se face aici prin introducerea variabilei vârstă ridicată 
la pătrat, alături de variabila vârstă iniţială. Variabila vârstă la pătrat va fi creată 
folosind meniul Compute. La Numeric Expression notăm formula: varsta2 = V242 * 
V242. V242 este variabila care conţine vârsta respondentului din WVS 2012. 

Astfel de transformări sunt frecvente în analizele multivariate. Una care 
foloseşte funcţiile implementate în SPSS presupune calcularea unui logaritm. 
Această transformare este frecvent întâlnită pentru variabila venit care nu are o 
distribuţie normală, ci, de regulă, alungită la dreapta (figura 5.4a). Majoritatea 
românilor au venituri mici, dar există şi români care au venituri ceva mai mari. 
Unii dintre aceştia pot să se îndepărteze destul de mult de majoritate. În analizele 
statistice, aceştia sunt consideraţi cazuri extreme (outlieri). Trebuie văzut în ce 
măsură afectează rezultatele analizelor statistice pe care le rulăm. Putem trans- 
forma variabila folosind una dintre funcţiile de logaritmare. La Numeric Expression 
aducem din secţiunea Functions and Special Variables, dând dublu click pe ea, 
funcţia LG10(. Trebuie doar să introducem între paranteze, în locul semnului de 
întrebare, variabila din baza de date care conţine informaţii despre venit : cs237a 
în WVS 2012. Funcţia devine LG10(cs237a). Apăsăm OK. Distribuţia variabilei 
logaritmate aproximează mai bine forma aşteptată (figura 5.4b). Problema acestor 
transformări este creşterea gradului de dificultate a interpretării coeficienţilor de 
regresie atunci când, în locul unităţii de măsură a variabilei iniţiale, folosim 
logaritmi sau rezultatele altor funcţii matematice. 
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Figura 5.4. Distribuţia venitului înainte şi după logaritmare 


(a) 


Frequency 





0 2000 4,000 6,000 8,000 10,000 12,000 14,000 


Venitul lunar, lei 


150 


Frequency 
8 


1 2 3 
Venitul lunar, lei, logaritmat 





108 INTRODUCERE IN SPSS PENTRU CERCETAREA SOCIALĂ ŞI DE PIAȚĂ 


Histograma din figura 5.4 a fost creată din meniul Analyze / Descriptive 
Statistics / Frequencies. În fereastra care s-a deschis, apăsăm pe butonul Charts 
(figura 5.5). Iniţial este selectat None, dar noi suntem interesaţi de histogramă, 
de aceea facem selecţia corespunzătoare : Histogram > With normal curve. 


Figura 5.5. Realizarea graficelor din meniul Frequencies > Charts 
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5.3. Exerciţii 


Pentru aceste exerciții utilizăm baza de date şi/sau chestionarul World Values 
Survey 2012 rezultat(ă/e) în urma aplicării chestionarului în România. Baza de 
date poate fi descărcată de pe pagina de internet a Grupului Românesc pentru 
Studiul Valorilor Sociale (http : //www.romanianvalues.ro). 


1. Căutaţi pe siteul www.romanianvalues.ro newsletterul nr. 4 din 2013-2014 cu 
tema ,,Satisfactia cu viata”. Citiţi acest text şi realizaţi o listă cu variabilele 
utilizate în analiză. 

2. Găsiţi variabila evaluarea stării de sănătate. Creati o variabilă dummy pornind 
de la aceasta. Căror coduri le atribuiti valoarea 1 şi căror coduri le atribuiti 
valoarea 0? Argumentati decizia. 

3. Găsiţi variabila stare civilă. Creați o variabilă dummy pornind de la aceasta, astfel 
încât să reflecte categoriile „persoana are o relaţie” / „persoana nu are o relaţie”. 

4. Care sunt variabilele dummy pe care le puteţi crea din punct de vedere teoretic 
pornind de la variabila stare civilă? Este fezabil să le creaţi pe toate? 
Argumentati răspunsul. 
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. Creați o variabilă care să conţină următoarele categorii de vârstă: 18-24, 
25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59, 60-64, 65+. 

. Căutaţi in baza de date setul de variabile v102-v107 care se referă la încrederea 
în diferite categorii de persoane. Recodificati, creând variabile noi, toate aceste 
variabile astfel încât din patru variante de răspuns să rămâneţi doar cu două. 
„ Citiţi lista de variabile v96-v101 din chestionar. Creați o nouă variabilă care 
să reprezinte suma tuturor acestor variabile. Ce măsoară această variabilă ? 
Cum interpretati scorul 60? 

. Căutaţi pe siteul www.romanianvalues.ro newsletterul nr. 2 din 2013-2014 cu 
tema „Încrederea în instituţii”. Citiţi secţiunea „Cine are încredere în instituţiile 
politice ? ”. Identificati în baza de date variabilele sex, vârstă, nivel de educaţie, 
mediu de rezidenţă, autopozitionare în clasa socială şi mândria de a fi român. 
Recodificati aceste variabile astfel încât să corespundă modului în care sunt 
utilizate în această lucrare. 


6. O primă privire asupra datelor 


Prin cercetările noastre, căutăm să descriem şi/sau să explicăm un anumit 
fenomen social. Câţi români au emigrat în anul 2013? Dintre aceştia, câţi au 
studii superioare ? Câţi români suferă de o boală cronică? Dintre aceştia, câţi 
au vârsta cuprinsă între 18 şi 30 de ani? Câţi români consumă pufuleti? Dintre 
aceştia, câţi cumpără pufuletii din hipermarket şi câţi din magazinul din proxi- 
mitatea locuinţei ? În primul rând, descriem situaţia, dar, de regulă, vrem să şi 
explicăm de ce situaţia arată în felul acesta. 

Testăm prezenţa unui efect (dacă..., atunci...), dar şi intensitatea cu care variază 
o variabilă dependentă în funcţie de variaţia variabilei independente (cu cât..., cu 
atât...). Putem compara nivelul de satisfacţie cu viata alromânilor care au emigrat cu 
cel al românilor care au decis să nu facă acest lucru. Dacă există diferenţe, emigrarea 
este factorul care produce diferenţa sau pot fi identificaţi şi alti factori? Nivelurile de 
satisfacţie cu viaţa sunt similare în cazul tuturor celor ce au emigrat sau variază în 
funcţie de caracteristicile ţării de destinaţie ? Care este factorul care creşte cel mai mult 
satisfacția cu viata? Sunt mai satisfacuti cu viata cei care au emigrat când erau mai 
tineri (sub 25 de ani) sau cei care au emigrat la o vârstă mai înaintată (peste 25 de ani)? 

Primul pas în acest demers este să ne familiarizăm cu datele. Să descriem 
modul în care gândeşte şi se comportă majoritatea. Primul pas este analiza sta- 
tistică univariată. Avem o listă de variabile aleasă conform obiectivelor de cercetare 
şi, pentru fiecare dintre acestea, inspectăm distribuțiile şi diferiţi indicatori sta- 
tistici care pot fi calculati pentru ele. Citim datele într-o manieră descriptivă. 
Dacă ne interesează să identificăm motivele pentru care unii români sunt mai 
fericiţi decât alţii sau motivele pentru care unii români îşi autoevaluează sănătatea 
ca fiind mai bună decât a altora, atunci începem prin a ne uita la distribuţia 
fericirii sau stării de sănătate a românilor la momentele alese pentru perspectiva 
cercetării. Câţi romani sunt fericiţi şi câţi nefericiti? După care, trecem la 
analizele statistice bivariate. Începem să punem în relaţie variabilele din lista 
noastră, două câte două. Care sunt categoriile care cuprind cei mai mulţi români 
fericiţi : locuitorii oraşelor mici sau ai oraşelor mari, tinerii sau adulţii, cei căsătoriţi 
sau persoanele care nu au o relaţie de cuplu, cei care au absolvit facultatea sau 
cei care au absolvit doar liceul, cei din cuartila unu, doi sau trei de venit s.a.m.d.? 
Câţi români apreciază că starea lor de sănătate este bună şi câţi o apreciază ca fiind 
proastă? Fenomenele sociale sunt complexe, de aceea analizele uni- sau bi-variate 
sunt insuficiente pentru a înţelege adecvat variaţia acestora. Orice analist doreşte 
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să ajungă la analizele statistice multivariate. Cine sunt cei care îşi evaluează sănătatea 
ca fiind mai bună: vegetarienii sau omnivorii, cei care merg la medic pentru 
controale preventive, cei mai educați, cei care fac sport ş.a.m.d. ? 

Descrierea datelor se realizează prin calcularea unor indicatori statistici şi, 
vizual, prin inspectarea unor grafice. Calculăm indicatori ai tendinței centrale, 
media (mean) şi mediana (median), dar şi indicatori ai variaţiei, abaterea standard 
(standard deviation) sau coeficientul de variaţie. Realizăm grafice bară (bar 
chart), histogramă (histogram) sau nor de puncte (scatterplot). 


6.1. Cum gândeşte majoritatea şi cât de omogene 
sunt grupurile comparate 


Indicatorii sintetici, cum sunt media sau mediana, oferă rapid, printr-un singur 
număr, o imagine de ansamblu asupra situaţiei majorităţii din populaţia de refe- 
rinţă. Alţii, cum este abaterea standard, ne arată cât de omogene sunt, după 
aceeaşi caracteristică, diferite grupuri. Media şi mediana sunt indicatori ai tendinței 
centrale. Abaterea standard este un indicator al variaţiei. 

Aceşti indicatori pot fi calculati doar atunci când variabilele au anumite pro- 
prietati. Aceste proprietăţi sunt grupate sub numele de niveluri de măsurare 
(tabelul 5.1). Mediana este valoarea care împarte setul de date ordonate în două 
parti egale. Poate fi calculată dacă variabila are cel putin nivelul de măsurare 
ordinal sau, în limbajul cercetătorilor, este variabilă ordinală. Media poate fi 
calculată doar pentru variabile metrice, interval sau raport. Pentru variabilele 
nominale, vom inspecta distribuţia de frecvenţe : categoria cu cele mai multe 
unităţi va fi tendinţa centrală. Dacă ne reamintim coloanele din Variable View, 
mai exact coloana Measure, remarcăm că SPSS distinge între variabilele nominale 
([E Nominal_~}) ordinale (osina =} si metrice ((P Scae 2) ). În cercetarea 
socială, atunci când aplicăm un chestionar, este destul de greu să măsori prin 
procedeele uzuale, la nivel de raport. În cel mai fericit caz, am reuşit să elaborăm 
variabile ordinale sau de interval. De aceea, în practică, pentru interval şi raport 
sunt folosite aproximativ aceleaşi analize statistice. O discuţie care clarifică multe 
dintre aceste aspecte este oferită de Agresti şi Finlay (2008). 

În ştiinţele sociale, folosim frecvent media aritmetică pentru a reprezenta 
tendinţa centrală. Este larg cunoscută, majoritatea ştiind să o interpreteze. Spre 
deosebire de mediană, utilizează informaţia numerică din variabilă, nu doar 
ordinea scorurilor (Agresti şi Finlay, 2008). Totuşi, mediana este frecvent con- 
sultată de analist: este, cel putin, un mecanism de verificare a mediei sau chiar 
înlocuitor al acesteia, atunci când datele contin cazuri extreme (outliers). Cazurile 
extreme sunt persoane care au valori mult mai mari sau mult mai mici decât 
majoritatea la variabila respectivă. O persoană care are un salariu lunar de 25.000 
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de lei, în condiţiile în care următorul salariu, în ordine descendentă, este de 8.000 
de lei, este un caz extrem. Aceasta nu este o situaţie ireală. Ea are însă un impact 
negativ asupra calculelor statistice. Prezenţa printre valorile variabilei chiar şi a unui 
singur caz extrem, indiferent că se află în partea stângă (valoare foarte mică) sau în 
partea dreaptă a scalei (valoare foarte mare), va afecta serios media, micşorându-i 
sau crescându-i foarte mult valoarea. Calculând salariul mediu folosind şi valoarea 
25.000 lei va distorsiona media: salariul mediu va lua o valoare care nu reflectă 
situaţia majorităţii. Rotariu, Bădescu şi colaboratorii (2006), prezentând detaliat 
proprietăţile mediei şi medianei, atrag atenţia că media nu este valoarea mijlocie a 
seriei. Media se va încadra în intervalul valorilor variabilei pentru care este calculată, 
fiind exprimată în aceeaşi unitate de măsură cu aceasta. Dacă variabila este „salariu 
exprimat în lei”, atunci media va fi exprimată în lei. De Vaus (2002), la rândul său, 
subliniază un alt neajuns al mediei, care trebuie avut în considerare în momentul 
interpretării valorii calculate de program: aceeaşi medie poate fi obţinută din distri- 
butii diferite. Agresti şi Finlay (2008) demonstrează cum media este deplasată in 
direcţia cozii mai lungi, atunci când distribuţia este alungită la stânga sau la dreapta. 
Când grupurile pentru care este calculată sunt omogene, adică persoanele seamănă între 
ele, media va fi un indicator bun al tendinței centrale, dar mai putin bun atunci când 
grupurile sunt eterogene. Acesta este unul dintre motivele pentru care calculăm şi 
indicatori ai variaţiei sau dispersiei, împreună cu indicatorii tendinței centrale. 
Indicatorii variaţiei sau dispersiei arată gradul de împrăştiere sau omogenitate/ 
eterogenitate a grupurilor investigate după o variabilă anume. Înainte de a calcula 
un indicator al variaţiei, trebuie să stabilim ce nivel de măsurare are variabila 
respectivă. Cel mai utilizat indicator este abaterea standard, care, pentru că 
foloseşte media în formula de calcul, poate fi calculat doar pentru variabile 
metrice. Putem compara abaterile standard calculate pentru aceeaşi variabilă în 
cazul a două grupuri. Grupul care arată cea mai mare abatere standard va fi mai 
eterogen. Dar această comparaţie nu ne va spune prea multe despre cât de omogen 
sau eterogen este fiecare grup. Agresti şi Finlay (2008) prezintă o regulă empirică 
aplicabilă distributiilor aproximativ normale, pe care o putem utiliza pentru a 
interpreta abaterea standard şi în termenii mărimii valorii acesteia : (1) aproximativ 
68% dintre cazuri se află în intervalul [medie — abatere standard, medie + abatere 
standard], (2) aproximativ 95% dintre cazuri se află în intervalul [medie - 2 x 
abatere standard, medie + 2 x abatere standard] şi (3) aproape toate cazurile se 
află în intervalul [medie - 3 x abatere standard, medie + 3 x abatere standard]. 
Abaterea standard are câteva neajunsuri care pot fi corectate prin utilizarea altui 
indicator al variaţiei, coeficientul de variaţie. Coeficientul de variaţie este egal 
cu raportul dintre abaterea standard şi media variabilei. Acesta este util atunci 
când vrem să comparăm anumite grupuri (1) folosind o variabilă care are unităţi 
de măsură diferite şi/sau (2) nivelul general al valorilor variabilei este diferit în 
grupurile respective. Rotariu, Bădescu şi colaboratorii (2006) oferă o explicaţie 
detaliată în acest sens: nu poţi compara salariile din România, exprimate în lei, 
cu cele din Germania, exprimate în euro, la fel cum nu poţi compara masa corporală 
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a unor albine cu cea a unor elefanţi. Aceşti autori atrag atenţia la utilizările fără logică 
teoretică ale coeficientului de variație: poate fi calculat doar pentru nivelul de 
măsurare de raport, pentru că valorile au originea zero. De asemenea, nu trebuie 
utilizat pentru a compara grupurile folosind variabile care au conţinut diferit. 

Sunt situaţii în care dorim să ştim ce procent din observaţii se află sub sau deasupra 
unei valori. Acest gen de informaţie ne este oferit, de exemplu, de mediană: 50% 
dintre observaţii se află sub această valoare şi 50% peste această valoare. Pentru 
informaţii mai detaliate utilizăm percentilele, întâlnite în cărţile de statistică sub 
denumirea de măsuri ale poziționării (Agresti şi Franklin, 2013). Percentilele sunt de 
mai multe feluri. Cuartilele sunt foarte utilizate. Există trei cuartile, cuartila 2 fiind 
chiar mediana. Sub prima cuartilă se află 25% dintre cazuri, iar deasupra celei de-a 
treia cuartile se află tot 25% dintre cazuri. Cel mai simplu este să vă reprezentaţi o 
linie împărţită în patru segmente, fiecare segment reprezentând 25% din date. Asociata 
cuartilelor este abaterea intercuartilă, care ne arată distanţa dintre cuartilele trei şi 
unu. Din acest motiv, abaterea intercuartilă nu este influenţată de cazurile extreme, 
fiind utilizată pentru detectarea acestora : dacă o observaţie se află dincolo de 1.5 x 
AIQ, adică sub prima cuartilă sau peste a treia cuartilă, atunci s-ar putea să fie un 
caz extrem. Graficul box-plot ne ajută să vizualizăm acest gen de informaţii. 
centrale, variaţiei şi poziționării. 

Pentru variabilele nominale, utilizăm distribuţia de frecvenţe pe care o obţinem 
din meniul Analyze > Descriptive statistics > Frequencies. La întrebarea „În 
general vorbind, aţi spune că se poate avea încredere în cei mai mulţi oameni sau 
că e mai bine să fii atent în relaţiile cu oamenii?” adresată în WVS 2012 si 
românilor, distribuţia răspunsurilor este cea prezentată în tabelul 6.1. În primul 
rând, remarcăm cele 15 persoane care nu au oferit un răspuns valid (coloana 
Frequency) (tabelul 6.1a). Trebuie să instruim programul că -2 şi -1 sunt coduri 
de nonrăspuns care trebuie dezactivate din analiză. Facem acest lucru fie în coloana 
Missing din Variable View (Discrete missing values = -2, respectiv -1), fie rulând 
sintaxa MISSING VALUES V24 (-2, -1). Rezultatul este prezentat in tabelul 6.1b. 


Tabelul 6.1. Tabel de frecvenţă: înainte şi după definirea nonrăspunsurilor 




















(a) 
V24 Most people can be trusted 
Frequency | Percent | Valid Percent| Cumulative 
Percent 
Valid |-2 No answer 4 2 2 2 
-1 Don't know 11 T -T 1.0 
1 Most people can be 115 Tal TaT. 8.6 
trusted 
2 Need to be very 1373 91.4 91.4 100.0 
careful 























Total 1503 100.0 100.0 
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(b) 
V24 Most people can be trusted 
Frequency | Percent Valid Cumulative 
Percent Percent 
Valid 1 Most people can be 115 TT 7.7 7.7 
trusted 
2 Need to be very 1373 91.4 92.3 100.0 
careful 
Total 1489 99.0 100.0 
Missing -2 No answer 4 .2 
-1 Don t know 11 M 
Total 14 1.0 
Total 1503 100.0 























Observăm că 92% dintre români considerau, în 2012, că e mai bine să fii atent 
în relațiile cu oamenii. 
În acelaşi an, majoritatea românilor considerau că principala problemă din 
lume este sărăcia : 53% au ales această variantă de răspuns în defavoarea celorlalte 
(tabelul 6.2). 


Tabelul 6.2. Tabel de frecvenţă: după definirea nonrăspunsurilor 





















































V80 Most serious problem of the world 
Frequency | Percent Valid Cumulative 
Percent Percent 
Valid 1 People living in 782 52.0 52.7 52.7 
poverty and need 
2 Discrimination 105 7.0 7.1 59.8 
against girls and 
women 
3 Poor sanitation and 205 13.7 13.9 73.7 
infectious diseases 
4 Inadequate 260 17.3 17.5 91.2 
education 
5 Environmental 130 8.7 8.8 100.0 
pollution 
Total 1483 98.7 100.0 
Missing |-2 No answer 7 5 
-1 Don’t know 12 8 
Total 20 13 
Total 1503 100.0 











Remarcati diferenta dintre coloana Percent si Valid Percent. in prima sunt 
calculate procentele luând ca bază întregul eşantion, adică şi pe cei care nu au 
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oferit un răspuns valid. În cea de-a doua sunt calculate procentele luând ca bază 
eşantionul valid, adică doar pe cei care au oferit un răspuns valid. 

Pentru indicatorii tendinței centrale, variaţiei şi poziționării, calculabili pentru 
variabilele care au cel puţin nivelul de măsurare ordinal, putem utiliza meniurile 
Analyze > Descriptive Statistics > Frequencies, Analyze > Descriptive 
Statistics > Descriptives sau Analyze > Descriptive Statistics > Explore. 

Meniul Analyze > Descriptive Statistics > Frequencies ne este deja familiar 
pentru că l-am folosit pentru a realiza tabelele de frecvenţă. Până acum, doar am 
introdus variabilele în partea dreaptă şi am apăsat butonul OK. Când utilizăm 
meniul, în fereastra care se deschide, observăm mai multe butoane. Cel care ne 
interesează aici este butonul Statistics (figura 6.1). 

Acest submeniu ne permite să calculăm media, mediana, abaterea standard şi 
diferite tipuri de percentile. Pe lângă acestea, putem alege să calculăm şi alţi 
indicatori ai tendinței centrale şi variaţiei cum ar fi modul, respectiv amplitudinea. 
De asemenea, în secţiunea Distribution putem calcula doi indicatori ai formei 
distribuţiei, skewness (alungirea) şi kurtosis (aplatizarea), dar despre aceştia 
discutăm la secţiunea de explorare a datelor. 


Figura 6.1. Meniul Frequencies, butonul Statistics 
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(b) 
ia) Frequencies: Statistics 
-Percentile Values Central Tendency, 
a Quarties [] Mean 
C Cut pcints for: [10 | equal groups | | C] Median 
[V] Percentile(s): | | Mode 
| Add | 10.0 [C] Sum 
~ Ah 
| 
[] Values are groug midpoints 
-Dispersion — Distribution ————_ 
E] (| Minimum [_] Skewness 
|_| Variance [| Maximum |_| Kurtosis 
[| Range [| SE. mean 
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Fereastra afişată prin apăsarea butonului Statistics este intuitivă. Observăm 
că indicatorii sunt grupaţi în secţiunile Percentile Values (poziţionare), Central 
Tendency (tendinţă centrală), Dispersion (variaţie) şi Distribution (forma 
distribuţiei). În analiza noastră, suntem interesaţi să cunoaştem tendinţa centrală 
pentru fericire şi sănătatea autoevaluată în rândul românilor. În baza de date 
WVS 2012, variabilele sunt V10 şi VII. Indicatorii statistici sunt prezentaţi in 
tabelul 6.3a, iar tabelele de frecvenţe sunt prezentate în tabelul 6.3b. Variabilele 
sunt ordinale : fericirea variază de la „deloc fericit” la „foarte fericit”, iar 
sănătatea autoevaluată variază de la „proastă” la „foarte bună”. Puteţi schimba 
ordinea în care sunt aşezate categoriile în funcţie de codurile lor dacă, în meniul 
Frequencies, apăsaţi butonul Format şi, în secţiunea Order by, bifati Descending 
values. Fiind variabile ordinale, putem calcula mediana şi măsurile poziționării. 
În practică, deseori, întâlnim în multe lucrări şi medii calculate pentru acest 
tip de variabilă ordinală. 
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Tabelul 6.3. Tabele de frecvenţă şi indicatori statistici ai tendinței centrale şi ai variației 
































































































































(a) 
Statistics 
V10 Feeling of V11 State of health 
happiness (subjective) 
N Valid 1495 1502 
Missing 8 | 
Mean 2.21 2.28 
Median 2.00 2.00 
Std. Deviation .721 .830 
Percentiles 25 2.00 2.00 
50 2.00 2.00 
75 3.00 3.00 
(b) 
V10 Feeling of happiness 
Frequency | Percent | Valid Percent | Cumulative 
Percent 
Valid 1 Very happy 205 13.6 13.7 13.7 
2 Rather happy 833 55.4 55.7 69.4 
3 Not very happy 397 26.4 26.6 96.0 
4 Not at all happy 60 4.0 4.0 100.0 
Total 1495 99.5 100.0 
Missing |-2 No answer 4 3 
-1 Don t know 4 3 
Total 8 iO 
Total 1503 100.0 
V11 State of health (subjective) 
Frequency | Percent | Valid Percent Cumulative 
Percent 
Valid 1 Very good 232 15.4 15.4 15.4 
2 Good 747 49.7 49.7 65.2 
3 Fair 390 25.9 25.9 91.1 
4 Poor 134 8.9 8.9 100.0 
Total 1502 99.9 100.0 
Missing |-2 No answer 1 A 
Total 1503 100.0 























Mediana fericirii este egală cu 2, „destul de fericit”. Procentele ne arată că 
cel mai frecvent nivel de fericire ales de către români este „destul de fericit” (56%). 
Mediana stării de sănătate autoevaluate este egală cu 2, „bună”. Procentele ne arată 
că cea mai frecvent aleasă stare a sănătăţii de către români este „bună” (50%). 
Media este apropiată ca valoare de mediană pentru ambele variabile. Cuartilele 
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ne arată că cel puţin 25% dintre români au declarat că sunt „nu prea fericiți” sau 
„deloc fericiţi” (percentila 75 = cuartila 3 = codul 3 „nu prea fericit”), respectiv că 
au o stare de sănătate „nu prea bună” sau chiar „proastă” (percentila 75 = cuartila 3 = 
codul 3 „nu prea bună”). Dacă dorim o informaţie mai detaliată, putem înlocui 
cuartilele cu decile, de exemplu : în secţiunea Percentile Values introducem valorile 
10, 20,... , 100 (figura 6.1b). Agresti şi Finlay (2008) ne îndeamnă să fim precauti 
cu interpretarea atunci când variabila are puţin categorii (variante de răspuns). 

Un alt meniu din care putem obţine aceşti indicatori statistici este Analyze > 
Descriptive Statistics > Descriptives. Acesta este însă ceva mai limitat, permi- 
tand doar calcularea mediei şi abaterii standard, fără mediană şi percentile. Odată 
intraţi în meniu (figura 6.2), apăsăm butonul Options şi alegem ce indicatori ne 
interesează. Rezultatele vor fi aceleaşi. 


Figura 6.2. Meniul Descriptives 
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În fine, ultimul meniu prezentat aici, care poate fi folosit pentru calcularea 
acestor indicatori, este Analyze > Descriptive Statistics > Explore (figura 6.3a). 


Figura 6.3. Meniul Explore 








Display 
(3) Both © Statistics © Plots 





(b) 


ia] Explore: Statistics 





[V] Descriptives 
Confidence Interval for Mean: % 
M-estinators 
[C] Outliers 
Percertiles 


(zane [ceea [ee 












Missing values 


(2) Exclude cases listwise’ 


O Exclude cases pairwise 


© Report values 








O PRIMĂ PRIVIRE ASUPRA DATELOR 121 


Acesta este ceva mai complex pentru că, aşa cum ne arată şi numele, este dedicat 
explorării datelor în vederea testării unor asumptii de bază ale analizelor statistice 
uzual angajate în studiile sociale. Aici vom discuta doar despre cum obţinem indicatorii 
discutati, restul meniului fiind abordat în secţiunea dedicată explorării datelor. 

Fereastra are două secţiuni care ne interesează în acest moment : Dependent List 
şi Factor List. La Dependent List introducem variabila pentru care dorim să calculăm 
statisticile, de exemplu, fericirea sau starea de sănătate autoevaluată. La Factor List 
introducem variabila care conţine grupurile care urmează să fie comparate, de 
exemplu, mediul de rezidenţă, care conţine două grupuri: locuitorii din urban şi 
locuitorii din rural. Apăsând butonul Statistics putem selecta, pe lângă statisticile 
descriptive discutate, M-estimators, Outliers şi Percentiles (figura 6.3b). 

M-estimators sunt alternative robuste la medie şi mediană. Bifând Percentiles 
obţinem percentilele 5, 10, 25, 50, 75, 90 şi 95. Prefer să lucrez cu meniul 
Frequencies, pentru că îmi dă mai multă libertate în opţiuni. Bifând Outliers, 
ne oferă un tabel cu ceea ce SPSS consideră a fi caz extrem (tabelul 6.4). Acest 
tabel nu este foarte informativ, pentru că oferă doar o selecţie a aşa-ziselor valori 
extreme. Coloana Case Number conţine numărul rândului din Data View. Dacă 
am fi introdus în secţiunea Label cases by din fereastra principală (vezi figura 
6.3a) o variabilă care conţinea id-ul unic al fiecărui respondent, atunci tabelul ar 
mai fi conţinut o coloană cu numele variabilei respective. Această alternativă este 
mai bună pentru că, dacă decidem să sortăm baza de date altfel decât în momentul 
în care am realizat tabelul (meniul Sort Cases), atunci informaţia din tabel devine 
inutilă. 


Tabelul 6.4. Tabel Outliers obţinut din meniul Explore 





Extreme Values 





Case Number Value 
621 
622 
623 
624 
625 4 
769 1 
768 1 
767 1 
1 
b 





V10 Feeling of happiness |Highest 

















Lowest 











AJIN = Ia AJN = 


766 

765 1 
a. Only a partial list of cases with the value 4 are shown in the table of upper extremes. 
b. Only a partial list of cases with the value 1 are shown in the table of lower extremes. 











[91] 














În cadrul meniului Explore, o altă comandă care ne interesează acum este cea 
declanşată de butonul Options (figura 6.3c). Aici decidem cum sunt tratate 
nonrăspunsurile atunci când introducem, simultan, cel puţin două variabile la 
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Dependent List sau cel puţin două variabile la Factor List. Implicit, SPSS va 
trata nonrăspunsurile listwise, adică va dezactiva în analiză cazurile care au 
nonrăspunsuri. Decizia aparţine însă cercetătorului. 

Tabelul cu statistici oferit de meniul Explore conţine multe informaţii utile 
(tabelul 6.5). Am calculat media, intervalul de încredere în jurul mediei, media 
calculată excluzând extremele distribuţiei (5% Trimmed Mean), mediana, varianta 
(pătratul abaterii standard), abaterea standard, valoarea minimă pe care o ia 
variabila, dar şi valoarea maximă, amplitudinea (range), abaterea intercuartilă, 
alungirea (skewness) şi aplatizarea (kurtosis). 


Tabelul 6.5. Output produs de meniul Explore 
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Statistic | Std. Error 
V10 Feeling of Mean 2.21 .019 
happiness 95% Confidence Lower Bound 2.17 
Interval for Mean Upper Bound 2.25 
5% Trimmed Mean 2.19 
Median 2.00 
Variance 519 
Std. Deviation 121 
Minimum 1 
Maximum 4 
Range 3 
Interquartile Range 1 
Skewness .305 .063 
Kurtosis .006 127 
V11 State of health Mean 2.28 .021 
(subjective) 95% Confidence Lower Bound 2.24 
Interval for Mean Upper Bound 2.32 
5% Trimmed Mean 2.26 
Median 2.00 
Variance .688 
Std. Deviation .830 
Minimum 1 
Maximum 4 
Range 3 
Interquartile Range 1 
Skewness .365 .063 
Kurtosis -.336 127 





Inchei prin a atrage încă o dată atenţia asupra stabilirii corecte a nivelului de 
măsurare al variabilei pentru care calculăm indicatorii statistici. Acest lucru se 
face înainte de realizarea calculelor respective. Deşi aici am calculat media şi 
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abaterea standard pentru variabile ordinale de tip Likert cu patru categorii, acest 
lucru nu înseamnă că acceptăm cu uşurinţă rezultatul primit. Vom întâlni în multe 
lucrări publicate astfel de analize. Trebuie să fim critici şi să ne gândim cât de 
bine respectă cerinţele de calcul astfel de măsurători şi cât de interpretabil este 
rezultatul analizei. 


6.2. Asocierea dintre variabile categoriale. 
Tabelul de contingenţă (Crosstabs) 


După inspectarea individuală a variabilelor, vrem să vedem cum sunt asociate 
diferite variabile. De regulă, avem o variabilă a cărei variaţie dorim să o explicăm 
şi mai mai multe variabile despre care credem că o influenţează. Aici gândim 
bivariat. Cei din cuartila 1 de venit sunt mai mulţumiţi cu viaţa lor decât cei din 
cuartila 2 ? Cei care au absolvit liceul sunt mai mulţumiţi cu viata lor decât cei 
care au absolvit facultatea ? Intuim deja de ce este util să învăţăm şi tehnici de analiză 
multivariată. Venitul mai mare creşte posibilitatea de a satisface mai multe nevoi şi 
aspirații, cum ar fi nevoia pentru o locuinţă cu mai multe camere, pentru o maşină 
mai încăpătoare, pentru vacanțe mai lungi etc. Cei care au absolvit niveluri formale 
de învăţământ mai înalte au mai multe cunoştinţe, lucru care le permite să fie mai 
flexibili pe piaţa muncii, să gestioneze riscurile mai uşor, să fie mai permeabili la 
schimbare etc. Însă, până la construirea unui model multivariat, ne putem face o idee 
despre obiectul studiului nostru folosind analizele bivariate. Decizia de a cumpăra un 
brand de cafea depinde de loialitatea faţă de brand? Dacă investigăm doar consumatori 
de cafea care nu sunt loiali nici unui brand, atunci când sunt la raftul de cafea, este 
culoarea ambalajului un factor de decizie pentru cumpărare ? 

Relaţia dintre două variabile categoriale poate fi observată folosind tabelul de 
contingenţă (Crosstabs). Variabilele categoriale sunt nominale sau ordinale. Esenţial 
este ca, atunci când realizăm un tabel de contingenţă, ambele variabile să aibă 
puţine categorii, pentru ca în fiecare celulă a tabelului să avem un număr rezonabil 
de cazuri. Un tabel cu 20 de rânduri şi 10 coloane nu este util, pentru că, probabil, 
multe celule nu vor avea cazuri. Nu există o regulă care să specifice care este 
numărul optim de rânduri şi coloane. 

Persoanele care au încredere în semenii lor sunt mai fericite decât persoanele 
care nu au încredere în aceştia? Alţi cercetători pot să pună întrebarea în sens 
invers : persoanele care sunt mai fericite au mai multă încredere în semenii lor 
decât persoanele care sunt mai puţin fericite ? Sensul relaţiei este stabilit printr-o 
atentă documentare teoretică. Programul de statistică nu alege variabila depen- 
dentă. El doar oferă calculele şi graficele pe care le solicităm. Alegerea sensului 
relaţiei este un act teoretic realizat înainte de a trece efectiv la analizarea datelor 
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în program. Domeniul fericirii este un exemplu foarte bun în ceea ce priveşte 
ambiguitatea direcţiei : de la fericire la altceva sau de la altceva la fericire. Pentru 
sociologi este specifică mai degrabă a doua variantă: presupunem că fericirea 
este starea la care trebuie să ajungem, trebuind să identificăm factorii care ne 
ajută în acest sens. 

Să vedem care este relaţia dintre încredere şi fericire. În WVS 2012, fericirea 
este măsurată prin întrebarea: „V10. Luând în considerare toate aspectele 
vieţii dvs., aţi spune că sunteţi: 1. Foarte fericit; 2. Destul de fericit; 3. Nu 
prea fericit; 4. Deloc fericit?”. Încrederea este măsurată prin întrebarea : 
„V24. În general vorbind, aţi spune că se poate avea încredere în cei mai mulţi 
oameni sau că e mai bine să fii atent în relaţiile cu oamenii: 1. Se poate avea 
încredere în cei mai mulţi oameni; 2. E mai bine să fii atent în relaţiile cu 
oamenii ? ”. Ne aşteptăm că persoanele care au încredere în majoritatea oame- 
nilor, adică aleg varianta 1 la V24, să fie mai fericite, adică aleg variantele 1 
sau 2 la V10. 

Avem două variabile categoriale : una nominală, V24, pe care o considerăm 
independentă, şi una ordinală, V10, pe care o considerăm dependentă. Adică 
V 10 este influenţată de V24. Putem încrucişa aceste două variabile, pentru a 
vedea dacă presupunerea este corectă. Mai întâi realizăm câte un tabel de 
frecvenţă pentru V 10 şi V24, pentru (1) a vedea dacă există coduri de nonrăspuns 
care nu sunt declarate missing în program şi pentru (2) a inspecta distribuţia 
variabilelor. Dacă există coduri de nonrăspuns nedeclarate missing, atunci 
trebuie să mergem în Variable View > coloana Missing şi să le declarăm. În 
ceea ce priveşte distribuţia, ne interesează să avem suficiente cazuri pentru 
fiecare variantă de răspuns de la cele două variabile. S-ar putea ca la fericire, 
V 10, să fie necesară o recodificare care presupune gruparea categoriilor. Există 
oameni care nu experimentează nici un pic de fericire (aleg varianta 4 la V10)? 
În această situaţie s-ar putea să dorim unirea categoriilor „deloc fericit” şi „nu 
prea fericit”. De asemenea, s-ar putea ca la încredere, V24, să nu avem variaţie, 
adică majoritatea să aibă sau să nu aibă încredere în semenii lor. În această 
situaţie, avem mai multe posibilităţi : considerăm că încrederea nu este măsurată 
bine şi căutăm alt indicator pe care să îl folosim în analiză, sau considerăm că 
încrederea nu este un factor care afectează fericirea. Tabelele de frecvenţă sunt 
prezentate în tabelul 6.6. 

Tabelul 6.6 prezintă informaţii despre cele două variabile. Respondentii au 
fost rugaţi să spună dacă cred că pot avea încredere în cei mai mulţi dintre oameni 
sau e mai bine să ai grijă în relaţiile cu oamenii. Majoritatea aleg a doua variantă 
de răspuns. 
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Tabelul 6.6. Tabele de frecvenţă: inspectarea variabilelor înainte 
de analiza de contingenta (Crosstabs) 













































































V10 Feeling of happiness 
Frequency | Percent | Valid Percent | Cumulative 
Percent 

Valid 1 Very happy 205 13.6 13.7 13.7 

2 Rather happy 833 55.4 55.7 69.4 

3 Not very happy 397 26.4 26.6 96.0 

4 Not at all happy 60 4.0 4.0 100.0 

Total 1495 99.5 100.0 
Missing |-2 No answer 4 S| 

-1 Don’t know 4 Fe) 

Total 8 D 
Total 1503 100.0 

V24 Most people can be trusted 
Frequency | Percent Valid Cumulative 
Percent Percent 

Valid 1 Most people can be trusted 115 Ge 7.7 7.7 

2 Need to be very careful 1373 91.4 92.3 100.0 

Total 1489 99.0 100.0 
Missing |-2 No answer 4 2 

-1 Don’t know 11 T 

Total 14 1.0 
Total 1503} 100.0 




















Nonrăspunsurile sunt definite : codurile valide sunt grupate în rândul Valid, iar 
codurile de nonrăspuns sunt grupate în rândul Missing. Remarcăm, aşa cum ne 
aşteptam, că a patra categorie de fericire, „deloc fericit”, are o frecvență mult mai 
scăzută decât celelalte. Pentru moment, obiectivul nostru de cercetare este să vedem 
dacă încrederea este asociată cu fericirea sau nu. Este suficient, aşadar, să am doar 
două categorii la variabila dependentă : fericiți şi nefericiti. Aşadar, folosind meniul 
Transform > Recode into Different Variables, vom crea o nouă variabilă dummy, 
cu numele vl0rec, pornind de la V10: codurile 1 şi 2 devin 1, fericiţi, iar codurile 
3 şi 4 devin 0, nefericiti. Mergând la încredere, observăm că majoritatea românilor 
nu au încredere în semenii lor, alegând varianta 2 de răspuns. Distribuţia răspun- 
surilor ar putea proveni din modul în care este formulat itemul: nu reuşeşte să 
discrimineze între indivizi. O discuţie detaliată despre acest gen de situaţii poate fi 
consultată în Mărginean (1982). Pe de altă parte, aceasta ar putea fi realitatea în 
România anului 2012. Dacă ne uităm la distribuţia răspunsurilor la această variabilă 
in alte tari incluse în studiu, vom observa că arată diferit: În Australia, 48% aleg 
a doua variantă, în Japonia, 61%, în Noua Zeelandă, 43%, în Suedia, 38% etc. 
Distributii similare cu cea din tara noastră sunt întâlnite în Cipru, Peru etc. Acceptăm 
că putem folosi itemul în analiza noastră. 
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Tabelul de contingenté este obţinut din meniul Analyze > Descriptive 
Statistics > Crosstabs. Figura 6.4a prezintă fereastra principală care se deschide 
prin accesarea acestui meniu. 

În stânga, observăm lista de variabile din care le alegem pe cele care ne 
interesează şi le trecem în căsuţele din dreapta. La Row(s) introducem variabila 
care vrem să fie poziționată pe rândurile tabelului. La Column(s) introducem 
variabila care vrem să fie poziționată pe coloanele tabelului. Nu există o regula 
cu privire la poziţionarea pe rând sau coloană. Pe rând, e preferabil să introducem 
variabila cu cele mai multe categorii, iar pe coloană pe cea cu cele mai puţine 
categorii. Astfel obţinem un tabel care va fi mai uşor de încadrat într-o coală A4 
orientată portret. În exemplul nostru, această discuţie este irelevantă pentru că 
ambele variabile au doar două categorii de răspuns. 

Dacă dorim să observăm relaţia dintre cele două variabile introduse în Row(s) 
şi Column(s), în funcţie de valorile altei variabile, atunci vom utiliza Layer 1 of 1. 
De exemplu, vrem să vedem relaţia dintre încredere şi fericire, în funcţie de genul 
respondentului : care este relaţia pentru femei şi care este relaţia pentru bărbaţi ? 
Folosind butonul Next, care se activează după ce introducem prima variabilă în 
Layer 1 of 1, putem subdivide şi mai mult. Când folosim această opţiune, trebuie 
să avem destul de multe cazuri în eşantion pentru a fi relevante rezultatele. 


Figura 6.4. Meniul Crosstabs 
(a) 


<8 Crosstabs x| 


| Statistice... | 


| Eormat... | 








E cs23sotm 
8 cs24sotm 
L x51 
L x52 
L x53 
E x54 
e x55 
ga ¥253c -Layer 1 of 1— 
4È time_start - = 
& time_final ENRETE J | ONE J 
gh fiter_$ 
L avesa 
L PRE 
L IREI 


[_] Display clustered bar charts 





















































Suppress tables 


| ox | Paste || Reset J| Cancel | Help 














O PRIMĂ PRIVIRE ASUPRA DATELOR 127 
(b) 


| 4 Crosstabs: Cell Display 
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În colţul din stânga jos, observăm două opţiuni: Display clustered bar charts 
şi Suppress tables. Prima produce un grafic bară similar cu cel din figura 6.5a. 
Forma prezentată aici este modificată fata de cea produsă prin setările implicite de 
către SPSS. Modificările au fost făcute dând dublu-click pe graficul rezultat în 
Output. După ce s-a deschis pentru editare, selectăm pe rând fiecare bară. Apăsăm 
pe meniul Edit > Properties din fereastra Chart Editor. În fereastra Properties 
(figura 6.5b) aleg tabul Fill & Border. În secţiunea Color selectez căsuţa colorată 
în alb şi, la Pattern, modelul dorit. Repet operaţiunea pentru cealaltă bară din tabel. 
Puteţi realiza mai multe modificări din acest meniu, în funcţie de preferinţe. 

Dacă bifăm cealaltă opţiune, Suppress tables, atunci rularea comenzii nu va afişa 
tabelul de contingenţă. Dacă ati bifat vreo opţiune în meniul care se deschide prin 
apăsarea butonului Statistics, atunci va fi afişat tabelul cu statisticile respective. 

Scopul nostru principal este să vizualizăm sub formă de tabel relaţia dintre 
cele două variabile. Dacă după ce am introdus cele două variabile pe rând şi pe 
coloană (figura 6.4a) apăsăm OK, tabelul rezultat va conţine doar frecvențele absolute, 
adică numărul de persoane care au sau nu încredere în semenii lor şi în starea acestora, 
de fericire sau nefericire (tabelul 6.7). 20 de persoane consideră că poţi avea încredere 
în cei mai multi oameni şi se declară nefericiti. 94 de persoane consideră că se poate 
avea încredere în cei mai mulţi oameni şi se declară fericiţi. 


Figura 6.5. Grafic bară obţinut folosind meniul Crosstabs 
(a) 
Bar Chart 
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(b) 
Properties 
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Tabelul 6.7. Tabel de contingenté care conţine doar frecvenţe absolute (Count) 
V24 Most people can be trusted * v10rec fericire (recodificare din V10) 
Crosstabulation 

Count 
v10rec fericire (recodifi- Total 
care din V10) 
O nu prea 1 foarte 
fericit sau fericit sau 
deloc fericit | destul de 
fericit 
V24 Most people can |1 Most people can be 20 94 114 
be trusted trusted 
2 Need to be very 432 935 1367 
careful 
Total 452 1029 1481 
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Este destul de greu să interpretăm datele vizualizate în acest mod. De aceea trebuie 
să transformăm frecvențele absolute în procente. Pentru că explicăm fericirea în funcţie 
de încredere, vom calcula procentele pe rând, pentru că pe rând am introdus variabila 
independentă. Apăsăm butonul Cells. Alegem, în secţiunea Percentages, căsuţa Row 
(figura 6.4b). Astfel, totalul de 100% va fi pe fiecare rând. Tot aici am mai făcut o 
modificare faţă de setările implicite: în secţiunea Noninteger Weights, în loc de 
Round cell counts, am bifat No adjustments. Baza de date pe care sunt efectuate 
analizele aici este ponderată, iar ponderile au valori de tipul 1.410471 sau 0.780202. 
Dacă nu facem modificarea, atunci când calculează statisticile, programul va rotunji sau 
trunchia aceste valori. Rezultatul final nu va folosi ponderile în mod corespunzător. 

Tabelul de contingenţă, care include frecvențele absolute (Count) şi procentele pe 
rând (% within V24...), este prezentat în tabelul 6.8. Pentru că am lăsat activă, in 
secţiunea Counts, opţiunea Observed, tabelul conţine atât frecvențele absolute, cât 
şi procentele calculate din variabila încredere (totalurile pe rând sunt egale cu 100%). 
Pentru că am modificat opţiunea din secţiunea Noninteger Weights, frecvențele absolute 
au zecimale. În raport, folosim valorile rotunjite atât la frecvențele absolute, cât şi 
la procente. În terminologia procentelor alese şi calculate aici, 32% dintre cei care 
consideră că nu poţi avea încredere în majoritatea oamenilor se declară nefericiti. 

Tabelul este destul de dificil de citit, având prea multă informaţie. Este util să rămână 
vizibile doar procentele, pentru a putea detecta dacă patternul aşteptat prin ipoteza de 
lucru există sau nu. Putem să ne întoarcem în meniu şi să debifăm opţiunea Observed, 
lăsând doar opţiunea Row. Dar mai rapid ar fi să edităm tabelul în Output. 


Tabelul 6.8. Tabel de contingenta care conţine frecvenţe absolute şi procente pe rand 





V24 Most people can be trusted * v10rec fericire (recodificare din V10) 
Crosstabulation 





v10rec fericire Total 
(recodificare din V10) 












































O nu prea |1 foarte 
fericit sau |fericit sau 
deloc fericit | destul de 
fericit 
V24 Most |1 Most people | Count 19.926 94.167 | 114.093 
people can | can be trusted |% within V24 Most 17.5% 82.5% | 100.0% 
be trusted people can be trusted 
2 Need tobe |Count 431.848} 935.166] 1367.014 
very careful |% within V24 Most 31.6% 68.4% | 100.0% 
people can be trusted 
Total Count 451.774 | 1029.333 | 1481.108 
% within V24 Most 30.5% 69.5% | 100.0% 
people can be trusted 





Aşadar, în Output, dăm dublu click pe tabel. Tabelul se va deschide pentru 
editare. În acest moment, putem modifica etichetele, putem şterge sau adăuga 
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informaţie ş.a.m.d. Dar nu aceste lucruri ne interesează. Scopul nostru este să 
rămână vizibile doar procentele. Pentru aceasta, având tabelul deschis pentru editare, 
citim bara de meniuri şi observăm că au apărut câteva opţiuni noi, printre care şi 
Pivot (figura 6.6a). Meniul, înainte de dublu click, este identic cu cel din baza 


de date (Data View sau Variable View). 


Figura 6.6. Editarea unui tabel de contingenţă in Output (Pivot) 
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(d) 
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Crosst 


abulation 


V24 Most people can be trusted * v10rec fericire (recodificare din V10) 





Statistics=% within V24 Most people can be trusted 





v10rec fericire (recodificare 
din V10) 





O nu prea 
fericit sau 
deloc fericit 


1 foarte fericit 
sau destul de 
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Total 























V24 Most people | 1 Most people can be trusted 17.5% 82.5% | 100.0% 
can be trusted |2 Need to be very careful 31.6% 68.4% | 100.0% 
Total 30.5% 69.5% | 100.0% 
(e) 


V24 Most people can be trusted * v10rec fericire (recodificare din V10) Crosstabulation 
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La Pivot, selectăm Pivoting Trays şi se deschide fereastra din figura 6.6b. 
Fereastra aceasta are două elemente: tabelul (fereastra din plan apropiat) şi 
layerul (fereastra din plan îndepărtat). În tabel, pe coloană (COLUMN) avem 
variabila vl0rec, iar pe rând (ROW) avem variabila V24 şi statisticile calculate, 
mai exact frecvențele absolute şi procentele pe rând. Ducem mouse-ul pe textul 
Statistics din ROW şi, ţinând apăsat, folosind procedeul drag-and-drop, tragem 
de acesta până în colţul din stânga sus de la Layer, care este alb. Când ajungem 
pe suprafaţa albă, săgeata mouse-ului se va transforma într-o mână. În acest 
moment eliberăm Statistics. În Output, observăm cum s-a modificat tabelul 
(figura 6.6c). În acest moment afişează doar frecvențele absolute (Count). 
Pentru că suntem interesaţi să afişeze procentele, ducem mouse-ul pe butonul de 


_ Statistics |% within 124 Most people can be trusted Y 


deasupra tabelului şi alegem % within 
V24. Modificarea este instantanee, putând citi imediat informaţiile (figura 6.6d). 
Pentru a închide fereastra de editare a tabelului, este suficient ca, în Output, să 
dăm click în afara lui. 

Pentru că nu raportăm procentele cu virgulă, vom da iarăşi dublu click pe tabel. 
Selectăm toate celulele cu procente in ele (figura 6.6e) şi, în meniul care se deschide, 
vom selecta Format > Cell Properties > Format value > Decimals = 0 (figura 
6.6e). Apăsăm butonul Apply şi apoi OK. 

Ipoteza spune că oamenii care au încredere în semenii lor sunt mai fericiţi : 
83% dintre cei care au încredere în semenii lor sunt fericiţi şi 68% dintre cei 
care nu au încredere în semenii lor sunt fericiţi. Procentele par să susţină ideea 
noastră. 

Înainte însă ar fi util si rulăm un test de semnificaţie. Discutia în detaliu, 
despre ce sunt testele de semnificaţie, care sunt argumentele pro şi contra utilizării 
lor ş.a., depăşeşte scopul acestei lucrări. Cititorul este rugat să consulte lucrările 
dedicate acestui subiect, având în vedere importanţa pe care o au în analizele 
statistice. De asemenea, este rugat să înţeleagă care este relaţia cu utilizarea 
intervalelor de încredere pentru realizarea de inferente. Pentru înţelegerea corectă 
a acestui concept, trebuie să înţeleagă diferenţa între populaţie şi eşantion, 
parametru şi statistică, eşantion probabilist şi eşantion neprobabilist, trebuie 
înţelese concepte precum probabilitate, distribuţie de eşantionare etc. Utile în 
acest sens sunt lucrările scrise de Henkel (1976) şi de Mohr (1990). Din ipoteza 
de cercetare, sunt derivate o serie de ipoteze statistice. Un test de semnificaţie 
caută să verifice dacă putem să respingem ipoteza de nul. Ipoteza de nul, aşa cum 
sugerează numele acesteia, presupune, de exemplu, că două variabile sunt inde- 
pendente, adică nu au nici o relaţie, nu sunt asociate. Cercetătorul testează această 
ipoteză folosind un eşantion probabilist extras din populaţia de referinţă pentru 
studiul său. De exemplu, testăm independenţa dintre încredere şi fericire folosind 
un eşantion reprezentativ pentru populaţia care are 18 ani sau peste, locuieşte în 
România, nefiind institutionalizata. Pornind de la acest eşantion care are, să zicem, 
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un volum de 1.500 de persoane, cercetătorul va face inferente pentru întreaga 
populaţie din care a fost extras. Acesta este însă unul dintre eşantioanele care puteau 
fi extrase folosind aceeaşi schemă de eşantionare. Dacă aplicăm aceiaşi paşi şi 
acelaşi algoritm, vor rezulta eşantioane care includ alte persoane decât eşantioanele 
extrase anterior. În ce măsură rezultatul din eşantionul nostru se datorează întâm- 
plarii? Există o relaţie între încredere şi fericire în cadrul populaţiei ? 

Pentru a răspunde la această întrebare, putem folosi testul Pearson chi-square 
sau, dacă dorim să îl citim în limba română, hi pătrat. Acest test presupune 
realizarea unui tabel de contingenţă: sunt comparate frecvențele observate din 
fiecare celulă cu frecvențele aşteptate din pură întâmplare pentru celulele respec- 
tive. Calculele sunt explicate detaliat în multe lucrări de statistică, cum ar fi cea 
scrisă de Field (2009). Înainte de a calcula acest test, trebuie să alegem o valoare 
teoretică standard a nivelului de semnificaţie cu care să o comparăm pe cea 
calculată de program. În ştiinţele sociale, cele mai utilizate sunt 0.05, pentru un 
nivel de încredere de 95%, şi 0.01, pentru un nivel de încredere de 99%. Dacă 
alegem valoarea teoretică 0.05, iar cea calculată este mai mică decât aceasta, să 
zicem 0.02, atunci putem respinge ipoteza de nul a independenţei celor două 
variabile. Probabilitatea de a greşi spunând că încrederea şi fericirea sunt asociate 
este mică. Atenţie la limbaj: discuţia se poartă în termeni probabilistici. Nu 
putem spune: „sigur există o relaţie”, ci „este mai probabil să existe decât să 
nu existe”. În practică, când p calculat de SPSS este mai mic decât pragul teoretic 
utilizat, să zicem 0.05, spunem că relaţia este semnificativă statistic. Sau, şi mai 
scurt, că relaţia este semnificativă. Să nu confundăm însă sensul de aici cu ideea 
de relaţie puternică. Înseamnă doar că putem respinge ipoteza de nul, nu şi că 
relaţia este puternică. Înseamnă doar că probabilitatea de a greşi spunând că 
fericirea este asociată cu încrederea este mai mică de 0.05 sau 5%. Aceste praguri 
teoretice sunt relativ arbitrare. Nu există o justificare solidă teoretic pentru ale- 
gerea lor. De ce un p calculat egal cu 0.06 face relaţia nesemnificativă statistic, 
iar un p calculat egal cu 0.05 o face semnificativă statistic? S-a dezvoltat o 
literatură alternativă pe acest subiect care merită consultată (Kline, 2004). 

Testul chi-square este obţinut apăsând butonul Statistics : în fereastra care se 
deschide, bifăm Chi-square (figura 6.4c). Rezultatele pentru analiza asocierii 
dintre încredere şi fericire sunt prezentate în tabelul 6.9. Ne interesează primul 
rând. Coloana Asymp. Sig. (2-sided) conţine valoarea p calculată. Aici este egală 
cu 0.002. O comparăm cu valoarea teoretică 0.05, aleasă înainte de a rula analiza. 
În sine, testul chi-square nu ne spune mare lucru şi, dacă nu tinem cont de anumite 
asumptii ale acestuia, poate chiar să dezinformeze (Reynolds, 1984). Aici ne spune 
că încrederea şi fericirea sunt asociate statistic: p calculat = 0.002, valoare mai 
mică decât 0.05. Acest rezultat are un grad de acuratețe ridicat dacă celulele 
tabelului de contingenté contin o anumită frecvenţă aşteptată (vezi prima notă de 
sub tabel: 0 cells (0.0%) have expected count less than 5). În eşantioanele cu 
multe unităţi, este foarte posibil ca p calculat să fie mai mic decât 0.05, chiar 
dacă variabilele sunt slab asociate. Argumentele teoretice pentru investigarea 
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acestei relaţii trebuie să fie bine gândite. O metodă empirică de verificare a acestei 
situaţii presupune utilizarea unei alte informaţii pe care ne-o poate calcula SPSS: 
calcularea valorilor reziduale ajustate (adjusted standardized residuals) (figura 
6.4b). Acestea ne arată care celule explică asocierea dintre cele două variabile 
(p calculat la chi-square mai mic decât 0.05). Într-un tabel 2x2, adică dintre două 
variabile dihotomice, nu este prea relevant să ne uităm la aceste statistici, însă 
într-unul care are cel puţin o variabilă cu mai mult de două categorii se pot dovedi 
foarte utile în explicaţie (Field, 2009). 


Tabelul 6.9. Testul Pearson chi-square : valoare şi p 


Chi-Square Tests 























Value | df Asymp. Sig. |Exact Sig. | Exact Sig. 
(2-sided) (2-sided) (1-sided) 

Pearson Chi-Square 9.912° 1 .002 

Continuity Correction? 9.257 1 .002 

Likelihood Ratio 10.917 1 .001 

Fisher’s Exact Test .001 .001 
Linear-by-Linear Association | 9.905 1 .002 

N of Valid Cases 1481 




















a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is 34.80. 
b. Computed only for a 2x2 table 














În literatura de specialitate, starea civilă este considerată un predictor al 
fericirii. Unii autori susţin că implicarea într-o relaţie de cuplu creşte fericirea 
partenerilor (Zimmerman şi Easterlin, 2006). Folosind datele WVS 2012, putem 
inspecta, într-o primă fază, relaţia dintre fericire şi starea civilă. Folosesc fericirea 
recodificată similar cu exemplul discutat anterior. Starea civilă are trei categorii : 
căsătorit sau angajat într-o relaţie de cuplu ; divorţat, separat sau singur ; văduv. 
Cele două variabile se numesc vIOrec, respectiv v57rec. Rezultatul, incluzând 
reziduurile ajustate, este prezentat în tabelul 6.10. Valoarea lui chi-square este 
90.692 (2 grade de libertate), iar valoarea lui p calculat este mai mică decât 0.01. 
Relaţia dintre starea civilă şi fericire este probabilă. Mai mult, dacă ne uităm la 
reziduurile ajustate, aceasta este dată de fiecare tip de stare civilă. Reziduurile 
ajustate mai mari de 1.96, ignorând semnul, arată o relaţie semnificativă la nivel 
de celulă pentru un nivel de încredere de 95%. Reziduurile ajustate mai mari de 
2.58, ignorând semnul, arată o relaţie semnificativă la nivel de celulă pentru un 
nivel de încredere de 99%. Semnele ne arată direcţia relaţiei. Reziduul -4.4 ne 
arată că persoanele care au o relaţie de cuplu, formalizată sau nu, nu trăiesc o 
stare de nefericire. În schimb, reziduul 9.5 ne arată că persoanele văduve trăiesc 
o stare de nefericire. Decesul partenerului reprezintă o pierdere grea în viaţa unei 
persoane. Trebuie investigat mai departe care sunt factorii care îi ajută pe cei 
divortati, separați sau singuri să compenseze efectul pozitiv al prezenţei unui 
partener de viaţă. Analizele multivariate se dovedesc utile în acest sens. 
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Tabelul 6.10. Tabel de contingenţă cu statistici: stare civilă şi fericire 





v57rec starea civila (recodificare din V57) * v10rec fericire (recodificare din 
V10) Crosstabulation 

































Statistics v10rec fericire Total 
(recodificare din V10) 
Onu prea | 1 foarte 
fericit sau | fericit sau 
deloc destul de 
fericit fericit 
v57rec starea |1 casatorit Count 263 720 983 
civila (recodifi- |sau are o % within v57rec 27% 73% | 100% 
care din V57) |relatie starea civila (recodifi- 
care din V57) 
Adjusted Residual -4.4 4.4 
2 divortat, Count 91 258 348 
separat sau |% within v57rec 26% 74% | 100% 
singur starea civila (recodifi- 


care din V57) 
Adjusted Residual 




















3 vaduv Count 100 58 158 
% within v57rec 63% 37% | 100% 
starea civila (recodifi- 
care din V57) 
Adjusted Residual 9.5 -9.5 
Total Count 454 1036 | 1490 
% within v57rec 30% 70% | 100% 


starea civila (recodifi- 
care din V57) 























Într-o altă analiză, am putea fi interesaţi să vedem dacă există o asociere între 
starea civilă şi încrederea în oameni. Aşteptarea noastră este că persoanele care 
au ieşit dintr-o relaţie de cuplu vor fi mai reticente în a se încrede în alte persoane. 
Tabelul 6.11 prezintă rezultatele analizei bivariate. Valoarea lui chi-square este 9.680 
(2 grade de libertate), iar valoarea p calculată este mai mică decât 0.01. Putem 
respinge ipoteza de nul a independenţei celor două variabile. Inspectând reziduurile 
ajustate, observăm că relaţia dintre cele două variabile se datorează în principal 
statutului de divorţat, separat sau singur, deoarece reziduurile ajustate din dreptul 
acestei categorii au valori mai mari de 2.58, ignorând semnul, pe când celelalte au 
valori mai mici de 1.96, ignorând semnul. Aşteptarea noastră este însă confirmată 
parţial, deoarece aceştia consideră că se poate avea încredere în majoritatea 
oamenilor (reziduul ajustat = 3.0). Trebuie investigate motivele pentru care se 
întâmplă acest lucru. Ipoteza noastră se baza pe ideea că relaţia de cuplu încetează 
pentru că cel puţin unul dintre parteneri a găsit o alternativă mai bună din diferite 
puncte de vedere. Astfel, celălalt se va simţi trădat. Însă datele ne lărgesc orizontul. 
Controlând şi pentru această idee, ar trebui văzut în ce măsură persoanele care 
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aleg să caute un alt parteneriat sunt mai deschise la experimentare, mai permeabile 
la schimbare etc. Analiza multivariată se dovedeşte din nou utilă. Trebuie să ne 
întoarcem la teorie, să o analizăm mai atent, să vedem ce ne-a scăpat şi să 
construim un model explicativ pe care să îl testăm folosind o analiză care permite 
utilizarea simultană a mai multor variabile independente. 


Tabelul 6.11. Tabel de contingenta cu statistici: stare civilă şi încredere în oameni 


















































v57rec starea civila (recodificare din V57) * V24 Most people can be trusted 
Crosstabulation 
Statistics V24 Most people Total 
can be trusted 
1 Most 2 Need 
people to be 
can be very 
trusted careful 
v57rec starea |1 casatorit sau | Count 67 914 980 
civila (recodi- | are o relatie % within v57rec 7% 93% | 100% 
ficare din starea civila (recodifi- 
V57) care din V57) 
Adjusted Residual -1.8 1.8 
2 divortat, Count 40 309 349 
separat sau % within v57rec 11% 89% | 100% 
singur starea civila (recodifi- 
care din V57) 
Adjusted Residual 3.0 -3.0 
3 vaduv Count 8 147 154 
% within v57rec 5% 95% | 100% 
starea civila (recodifi- 
care din V57) 
Adjusted Residual -1.3 1.3 
Total Count 114 1369] 1483 
% within v57rec 8% 92% | 100% 
starea civila (recodifi- 
care din V57) 

















În meniul din figura 6.4c, putem alege dintre mai mulţi indicatori de asociere 
şi chiar de corelaţie. Aceştia sunt grupaţi în funcţie de tipul variabilelor pe care 
dorim să le asociem: nominale cu nominale (Contingency coefficient, Phi and 
Cramer’s V, Lambda, Uncertainty coefficient), ordinale cu ordinale (Gamma, 
Somers’ d, Kendall’s tau-b, Kendall’s tau-c), metrice cu metrice (Correlations) 
etc. Logica acestora va fi înţeleasă după parcugerea capitolului dedicat corelatiei 
metrice. Spre deosebire de testul chi-square, aceştia sunt indicatori care iau o 
valoare într-un interval şi ne arată direcţia şi intensitatea relaţiei. O prezentare 
excelentă a diferenţei dintre aceştia şi a momentelor în care este potrivit să îl 
utilizăm pe unul sau altul a fost realizată de Chen şi Popovich (2002). 
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6.3. Diferențe între medii: testul t pentru eşantioane 
independente şi ANOVA 


Uneori suntem interesaţi să vedem dacă două grupuri au valori similare pentru o 
anumită caracteristică. În situaţii puţin mai complexe, am putea fi interesaţi să 
comparăm trei sau mai multe grupuri după o anumită caracteristică. Lucrăm cu 
două variabile simultan : una categorială, care dă grupurile, şi una metrică, pentru 
care calculăm media în cadrul fiecărui grup. Variabila categorială este cea care 
explică - variabilă independentă. Variabila metrică este cea explicată - variabila 
dependentă. Într-un studiu care analizează discriminarea femeilor pe piaţa muncii, 
putem fi interesaţi să comparăm salariul lunar al femeilor şi bărbaţilor care au 
locuri de muncă similare. Variabila de grupare va fi sexul, iar cea pentru care 
calculăm mediile va fi salariul lunar. Într-o cercetare de marketing, putem fi 
interesaţi să comparăm volumul vânzărilor, într-o anumită perioadă, pentru 
anvelopele de iarnă şi pentru cele de vară produse de o anumită companie. 
Variabila de grupare va fi tipul de anvelope, iar cea pentru care calculăm mediile 
va fi volumul vânzărilor. 

Ipoteza de nul va fi că mediile grupurilor comparate sunt egale. Dacă valoarea 
p calculată este mai mică decât pragul critic ales ca referinţă, 0.05 sau 0.01, 
atunci respingem ipoteza de nul şi considerăm plauzibilă ipoteza alternativă. 
Grupurile comparate diferă în ceea ce priveşte caracteristica respectivă. Salariul 
bărbaţilor ar putea fi mai mare decât cel al femeilor. Trebuie investigate motivele 
acestei situaţii. Anvelopele de vară ale companiei sunt vândute într-o cantitate 
mai mare decât anvelopele de iarnă. Trebuie aflat de ce se întâmplă acest lucru. 
Observăm că testul t pentru eşantioane independente sau analiza de varianta 
(ANOVA) ne deschid căi interesante pentru explicarea unei situaţii. Însă, de 
regulă, cercetătorul nu se limitează la ele, ci, folosind modele explicative, aplică 
diferite tehnici de analiză multivariată pentru a reprezenta cât mai adecvat realitatea 
socială, ceva mai complexă decât aceste relaţii bivariate. ANOVA este necesară 
pentru că, dacă avem cel puţin trei grupuri şi aplicăm câte un test t în cazul 
fiecărei perechi, există posibilitatea să vedem diferenţe chiar şi acolo unde nu 
există. Adică respingem ipoteza de nul când nu trebuie (Henkel, 1976). Testele 
de semnificaţii despre care discutăm ne arată dacă diferenţele dintre mediile 
grupurilor există datorită variațiilor aleatoare de la un eşantion la altul ori pentru 
că datele provin din populaţii în care mediile chiar sunt diferite (Iversen şi Norpoth, 
1987). Pentru a fi relevantă comparatia, grupurile trebuie să difere doar în ceea 
ce priveşte caracteristica presupusă a da diferenţa. Trebuie să aibă variaţii similare 
(Iversen şi Norpoth, 1987). Pentru verificarea acestei asumptii, există mai multe 
teste de semnificaţii. SPSS ne oferă testul Levene. În funcţie de informaţia arătată 
de acesta, interpretăm şi rezultatul testului t pentru eşantioane independente şi 
ANOVA. O altă condiţie este ca variabila metrică să fie distribuită normal. Dacă 
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grupurile comparate au mărimi şi variaţii diferite, iar distribuţia este alungită 
sever, atunci este destul de probabil ca rezultul analizelor să nu fie adecvat (Agresti 
şi Finlay, 2008). Atunci când aceste asumptii nu pot fi satisfăcute, ar fi util să 
înlocuim sau măcar să comparăm rezultatele celor două analize cu cele ale 
echivalentelor nonparametrice care pot fi calculate în SPSS. Dar aceasta este o 
altă discuţie. 

Testul t pentru eşantioane independente poate fi calculat folosind meniul 
Analyze > Compare Means > Independent-Samples T Test (figura 6.7). 
Fereastra care se deschide este foarte intuitivă pentru utilizator : în partea stângă 
avem lista de variabile din care le alegem pe cele pe care dorim să le utilizăm în 
analiză. În Test Variable(s) introducem variabila metrică pentru care dorim să 
calculăm media. Aici se introduce satisfacția cu viata care are numele V23 în 
WVS 2012. În Grouping Variable, introducem variabila categorială care dă 
grupurile comparate după variabila metrică. Aici se introduce variabila V234: 
„Slujba dvs. presupune să aveţi/să fi avut pe cineva în subordine ? 1. Da, 2. Nu”. 
În figura 6.7a observăm că în dreptul numelui variabilei sunt, între paranteze, 
două semne de întrebare: V234(? ?). SPSS solicită codurile celor două grupuri 
pentru care dorim să comparăm mediile satisfactiei cu viata. Le aflăm dintr-un 
tabel de frecvenţă. Aici corespund chestionarului: 1 înseamnă că respondentul 
are persoane în subordine la locul de muncă, iar 2 că nu are. Pentru a le introduce, 
apăsăm butonul Define Groups (figura 6.7b). Pentru că ştim exact ce grupuri 
dorim să comparăm, variabila având oricum doar două coduri valide, selectăm 
Use specified values şi, la Group 1, respectiv Group 2, introducem cele două 
coduri (figura 6.7b). Apăsăm Continue, iar rezultatul este vizibil în figura 6.7c. 


Figura 6.7. Meniul Independent-Samples T Test 
(a) 
$i Independent-Samples T Test X| 


Test Variable(s): Per 

& VDH zx é ZE Options... 
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(b) 
ia: Define Groups x| 


(3) Use specified values 
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(c) 
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Rezultatul analizei este prezentat în tabelul 6.12. Mai întâi, sunt afişate câteva 
statistici descriptive. Sunt 358 de persoane care au subordonați, spre deosebire 
de cei care nu au alte persoane în subordine, care sunt în număr de 794. Cei 
dintâi au o medie a satisfactiei cu viata egală cu 6.94, iar cei din urmă egală cu 
6.63. Abaterile standard sunt apropiate ca valoare, 2.28 şi 2.35. Satisfactia cu 
viaţa este măsurată pe o scală de la 1 la 10, scorurile mari indicând o satisfacţie 
cu viaţa mai ridicată. Următoarea figură conţine testul Levene şi testul t pentru 
eşantioane independente. Testul Levene ne spune că variantele celor două grupuri 
sunt egale. Valoarea p calculată pentru acesta este egală cu 0.112. Fiind mai mare 
decât pragul teoretic de 0.05, nu putem respinge ipoteza de nul a egalităţii 
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variantelor. Din acest motiv, o să citim testul t de pe rândul Equal variances 
assumed. Dacă valoarea p calculată a testului Levene ar fi fost mai mică decât 
0.05, atunci am fi citit testul t de pe rândul Equal variances not assumed. Testul t 
ne spune că cele două medii sunt diferite: valoarea p calculată este egală cu 
0.038, care este mai mică decât pragul teoretic de 0.05. Putem respinge ipoteza 
de nul a similarităţii satisfactiei cu viata în rândul celor două grupuri: cu sau 
fără subordonați la locul de muncă. Din punct de vedere statistic, rezultatul ar 
putea fi satisfacător. Totuşi, cercetătorul nu trebuie să se mulţumească cu o 
abordare empiristă a realităţii sociale. Cele două medii sunt diferite prin 0.3 
unităţi pe o scală de 10 puncte. Este aceasta o diferenţă de luat în seamă din punct 
de vedere practic? 


Tabelul 6.12. Testul t pentru eşantioane independente : output 















































Group Statistics 
V234 Are you 
supervising 
someone N_| Mean | Std. Deviation | Std. Error Mean 
Nes Saustacton i yes 358| 6.94 2.281 121 
with your life 
2 no 794| 6.63 2.359 .084 
Independent Samples Test 
Levene's 
Test for 
Equality of 
Variances t-test for Equality of Means 
95% Confidence 
Interval of the 
Difference 
Std. 
Mean Error 
Sig. | Differ- | Differ- 
F Sig. t df (2-tailed)| ence ence _ | Lower Upper 
V23 Equal 
Satis- |vari- 
faction |ances 2.531| .112| 2.077 1150 .038| .309 .149| .017 .600 
with as- 
[your life |sumed 
Equal 
vari- 
a 2.104|710.347| 036| .309| 147| .021 597 
as- 
sumed 









































Atunci cand avem mai multe grupuri ce trebuie comparate, utilizim analiza 
de varianta, prescurtată ANOVA. Nivelul satisfactiei cu viata diferă în funcţie de 
starea civilă? Am grupat persoanele in trei categorii: 1. Căsătorit sau trăiesc 
împreună cu cineva, dar nu suntem căsătoriţi; 2. Divortat, separat (despărţit 
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nelegal) sau necăsătorit şi fără a locui cu un partener ; 3. Văduv. Ipoteza de nul 
este că satisfacția cu viata este similară pentru toate cele trei grupuri. Totuşi, noi 
ne aşteptăm să apară diferente: cei care au o relaţie ar trebui să aibă o satisfacţie 
cu viaţa mai mare decât în cazul celorlalți. ANOVA este obţinută din meniul 
Analyze > Compare Means > One-Way ANOVA (figura 6.8). Fereastra este 
la fel de intuitivă ca la testul t pentru eşantioane independente. În partea stângă, 
avem lista de variabile din care le vom selecta pe cele utilizate în analiză. La 
Dependent List introducem variabila metrică, pentru care calculăm mediile. Aici 
se introduce satisfacția cu viata care poartă numele V23. La Factor introducem 
variabila categorială, cea care dă grupurile pe care dorim să le comparăm după 
nivelul satisfactiei cu viata. Aici se introduce starea civilă care poartă numele 
v57rec. Spre deosebire de meniul testului t pentru eşantioane independente, aici 
nu mai este nevoie să definim codurile grupurilor. Pentru a fi relevantă comparatia, 
fiecare grup trebuie să aibă un număr decent de cazuri. Dacă nu se întâmplă acest 
lucru, atunci este utilă combinarea lor. De exemplu, primele două categorii ale 
stării civile sunt obţinute prin combinarea categoriilor din variabila iniţială. Pe 
lângă asigurarea unui număr rezonabil de cazuri în fiecare grup, am avut în vedere 
şi scopurile teoretice ale analizei. 

Dacă apăsăm butonul Options, putem alege mai multe opţiuni care vor fi 
afişate în Output. Descriptive ne oferă numărul de persoane din fiecare grup, 
media şi abaterea standard a satisfactiei cu viata, dar şi intervalele de încredere 
în jurul mediilor şi nu numai. Homogeneity of variance test ne oferă testul 
Levene. Brown-Forsythe şi Welch sunt alternative robuste la testul F clasic 
specific ANOVA, atunci când asumptia egalităţii variantelor nu este îndeplinită. 
Dacă apăsăm Continue şi OK, obţinem rezultatul din tabelul 6.13a. Testul Levene 
ne spune că variantele nu sunt egale : p calculat este mai mic decât 0.01 (coloana 
Sig). Acest lucru îl intuiam după ce am comparat abaterile standard. Putem să 
mai consultăm forma distribuţiei satisfacţiei cu viata pentru cele trei grupuri 
realizând câte un grafic bară pentru fiecare dintre ele. Dacă pentru cei care au o 
relaţie şi cei care sunt divortati, separați sau singuri distribuțiile au aproximativ 
aceeaşi formă, aceasta arată destul de diferit pentru văduvi. Testul F, din tabelul 
ANOVA, ne spune că cel puţin două dintre grupurile comparate au o satisfacţie 
cu viata diferită. Pentru că variantele sunt inegale, am preferat să consult şi 
alternativele Welch şi Brown-Forsythe care, de data aceasta, oferă acelaşi rezultat 
ca şi testul F. Pentru a afla care grupuri diferă şi în ce fel, trebuie să folosim 
metoda comparatiilor multiple sau testele post-hoc. Acestea pot fi accesate apăsând 
butonul Post Hoc. Aceste teste, fiecare cu avantajele şi dezavantajele sale, sunt 
alese în funcţie de rezultatul testului Levene. Aici, pentru că variantele nu sunt 
egale, alegem unul dintre testele din secţiunea Equal Variances Not Assumed 
(figura 6.8c). Rezultatele sunt prezentate în tabelul 6.13b. 
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Figura 6.8. Meniul One-Way ANOVA. Analiza de varianta 


Factor: 
a [+] 


(b) 
|i One-Way ANOVA: Options 
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sai One-Way ANOVA: Post Hoc Multiple Comparisons 
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Tabelul 6.13. Rezultate ale analizei de varianta 






















































































(a) 
Test of Homogeneity of Variances 
V23 Satisfaction with your life 
Levene Statistic df1 df2 Sig. 
13.805 2 1482 .000 
ANOVA 
V23 Satisfaction with your life 
Sum of df Mean Square F Sig. 
Squares 
Between Groups 284.112 2 142.056 25.670 .000 
Within Groups 8201.352 1482 5.534 
Total 8485.464 1484 
Robust Tests of Equality of Means 
V23 Satisfaction with your life 
Statistică df1 df2 Sig. 
Welch 18.075 2 365.203 .000 
Brown-Forsythe 21.310 2 451.001 .000 
a. Asymptotically F distributed. 
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(b) 
Multiple Comparisons 
V23 Satisfaction with your life 
Tamhane 
(I) v57rec starea | (J) v57rec starea | Mean Std. Sig. 95% Confidence 
civila (recodifica- | civila (recodifica- | Differen- | Error Interval 
re din V57) re din V57) ce (l-J) Lower Upper 
Bound Bound 

1 casatorit sau 2 divortat, .015| .146| .999 -.34 37 
are o relatie separat sau 

singur 

3 vaduv 1.420'| .238| .000 .85 1.99 
2 divortat, 1 casatorit sau -.015 „146| .999 -.37 .34 
separat sau are o relatie 
singur 3 vaduv 1.405'| .260| .000 .78 2.03 
3 vaduv 1 casatorit sau -1.420'| .238] .000 -1.99 -.85 

are o relatie 

2 divortat, -1.405'| .260} .000 -2.03 -.78 

separat sau 

singur 
*. The mean difference is significant at the 0.05 level. 











Mai întâi, consultăm coloana Sig care conţine valorile p calculate. Observăm 
diferenţe semnificative statistic (p calculat < 0.05) între grupurile „căsătorit sau 
are o relaţie” şi „văduv”, respectiv „divorţat, separat sau singur” şi „văduv”. 
Ipoteza de lucru se confirmă parţial, pentru că nu observăm o diferenţă între 
„Căsătorit sau are o relaţie” şi „divorţat, separat sau singur”. Apoi consultăm 
coloana Mean Difference (I-J). Aceasta ne spune cu cât diferă mediile grupurilor 
comparate. Literele I şi J desemnează prima, respectiv a doua coloană din tabel. 
De exemplu, diferenţa dintre media satisfactiei cu viata a celor căsătoriţi sau care 
au o relaţie şi media văduvilor este de 1.42 unităţi. Cei dintâi au media 6.85, iar 
cei din urmă au media 5.43. Pasul următor este căutarea acelor factori care fac, 
de exemplu, ca persoanele divortate, separate sau singure să fie mai satisfăcute 
cu viaţa decât cele văduve. 


6.4. Două grafice uzuale în descrierea datelor 


Graficele pot fi folosite în două scopuri. Un scop, pur operaţional, este vizuali- 
zarea datelor altfel decât sub formă de tabele în timpul activităţii de analiză. 
Celălalt scop este prezentarea informaţiei în lucrările noastre într-un mod mai 
intuitiv decât sub formă de tabele sau descriere în cuvinte. A face un grafic bun 
nu este atât de intuitiv tot timpul. 
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Good şi Hardin (2012) oferă câteva reguli pentru cei ce doresc să utilizeze 
grafice pentru prezentarea datelor. Prezentăm o listă adaptată după aceşti autori : 


Realizaţi grafice 2D. A treia dimensiune trebuie folosită doar dacă există. 
Folosiţi bare şi evitati formele geometrice speciale cum ar fi conul, cilindrul 
etc. De asemenea, evitati umbrele generate de bare. 

e Includeti valorile pe bare. Dacă sunt prea multe bare, includeți valorile măcar 
la extreme şi la o categorie de interes major. În cazul în care comparăm salariul 
minim din diferite tari europene, evidentiem tara cu salariul minim şi pe cea 
cu salariul maxim, dar şi valoarea specifică României. 

e Includeti etichete care clarifică elementele din grafic. Dacă sunt prea multe 
etichete, atunci alegeţi cu atenţie unele care evidenţiază ideea centrală a gra- 
ficului. Nu suprapuneti etichetele cu elementele esenţiale ale graficului. 

e Evitaţi spaţiile goale de dimensiuni mari în grafice. Ajustati scala variabilelor 
astfel încât să reflecte amplitudinea din date nu pe cea ideală. 

e Utilizati graficele în acord cu proprietăţile variabilelor. 


Această listă este doar un început. Poate fi îmbogăţită şi adaptată în funcţie 
de informaţia care se vrea transmisă şi graficul ales în acest sens. 

SPSS are o caracteristică utilă mai ales pentru utilizatorii novici: ne permite 
să realizăm grafice atât din meniurile unor analize, cât şi din meniul dedicat 
special acestui lucru. Pentru începători, recomand utilizarea primei variante. De 
exemplu, meniul Frequencies ne oferă posibilitatea realizării a trei grafice : radial 
(pie), bară (bar chart) şi histogramă (histogram). Intraţi în meniu şi apăsaţi 
butonul Charts. În fereastra care se deschide (figura 6.9) trebuie doar să selectăm 
tipul de grafic care ne interesează. Aici am ales să facem un grafic bară, axa Oy 
evidențiind procentele. Folosim procentele pentru că acestea au mai mult sens 
atunci când le citim decât frecvențele absolute. 


Figura 6.9. Meniul Frequencies, Charts 
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Graficul radial nu este un instrument bun de vizualizare a datelor. Diferenţele 
dintre secţiunile graficului pot fi atât de mici, încât devine necesară suprapunerea 
valorilor peste ele. Deja oferim informaţie redundantă. O soluţie mult mai bună este 
graficul bară. Un exemplu este prezentat în figura 6.10. Pe axa Ox sunt cele patru 
niveluri de fericire. Axa Oy ne spune procentul celor care aleg o categorie sau alta. 


Figura 6.10. Grafic bară 


Feeling of happiness 
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Cases weighted by Weight 


Valorile de pe fiecară bară le-am adăugat ulterior. Am dat dublu click pe grafic, 
acţiune în urma căreia se deschide Chart Editor. Mergem în meniul Elements > 
Show Data Labels. În fereastra care se deschide, selectăm tabul Data Value Labels, 
Label Position şi apoi Custom, bifând poziţia dorită (figura 6. 11a). 

Tot aici putem modifica numărul de zecimale, tipul textului şi altele. Selectăm 
tabul Number Format şi facem următoarele modificări : Decimal Places = 0 si 
Trailling Characters = % (figura 6.11b). Apăsăm Apply, Close şi închidem fereastra 
de editare a graficului. Evident, putem face şi alte modificări în aceste ferestre. 

Aici, vedem rapid că majoritatea românilor erau destul de fericiţi în 2012 
conform WVS. 

Când vrem să reprezentăm grafic o variabilă metrică cu multe categorii, in 
locul graficului bară alegem histograma (figura 6.12). Mergem în Frequencies, 
apăsăm Charts, şi selectăm Histogram. Comparând cele două histograme, obser- 
vam o variaţie mai mare în rândul femeilor în ceea ce priveşte timpul petrecut 
cu îngrijirea copiilor, bătrânilor sau celor bolnavi. Graficele sugerează, de ase- 
menea, un timp mai mare petrecut de femei cu acest gen de activităţi. 
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Figura 6.11. Editarea valorilor de pe bare, Properties 
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Figura 6.12. Histograme 





Sex: Male 
Mean = 205.06 
Std. Dev. = 183.025 
N =200.257997 

> 
o 

[= 

v 

3 

> 
2 

(ras 

0 200 400 600 800 1000 1200 1400 
Time iat | respondent spends Caring for 
children, elderly, ill 
Cases weighted by Weight 
Sex: Female 
Mean =347.49 
Std. Dev. =234.45 
N =340.44830C 


40 






Frequency 
8 





200 400 600 800 1000 1200 1400 


Time (minutes/day) respondent spends: Caring for 
children, elderly, ill 


Cases weighted by Weight 


149 


150 INTRODUCERE IN SPSS PENTRU CERCETAREA SOCIALĂ ŞI DE PIAȚĂ 


Histogramele trebuie utilizate cu precauţie. De exemplu, aici, am modificat 
mărimea intervalului folosit pentru reprezentarea grafică astfel încât să fie egal 
cu 60 de minute. Acest lucru se poate face dând, în Output, dublu click pe grafic. 
Se deschide Chart Editor. În interiorul acestuia, dăm dublu click pe barele 
histogramei şi se deschide fereastra Properties. Selectăm tabul Binning (figura 
6.13) şi, în secţiunea X Axis, selectăm Custom, iar la Interval width introducem 
valoarea dorită. 


Figura 6.13. Chart Editor, Properties pentru histogramă 
Properties 
Chart Size | Fill & Border 
(3) X axis only 
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Există mai multe lucrări care prezintă principiile reprezentării grafice corecte. 
Dintre acestea le pot aminti pe cele elaborate de Chambers şi colaboratorii (1983), 
Jacoby (1997, 1998) şi Tufte (2001). 
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6.5. Exerciţii 


Pentru aceste exerciţii, utilizăm baza de date şi/sau chestionarul World Values 
Survey 2012 rezultat(ă) în urma aplicării chestionarului în România. Baza de date 
poate fi descărcată de pe pagina de internet a Grupului Românesc pentru Studiul 
Valorilor Sociale (http : //www.romanianvalues.ro). 


1. 


Deschideti chestionarul WVS 2012. Calculati indicatorii tendintei centrale si 
variaţiei corespunzători pentru variabilele de pe paginile cu număr impar. 


. Exportaţi tabelele in Excel şi editati-le pentru includerea într-un raport. 
. Pentru variabilele de la exerciţiul anterior, realizaţi câte un grafic care să 


reflecte cât mai bine informaţia. Editati aceste grafice astfel încât să poată fi 
folosite într-un material tipărit monocrom (alb-negru). 

Găsiţi în baza de date variabila care măsoară fericirea (nu satisfacția cu viata). 
Elaborati o listă cu zece variabile nominale, diferite faţă de cele folosite in 
textul acestui capitol, care credeţi că influenţează fericirea. Realizati o lista 
de ipoteze în care fericirea este variabila explicată. 


. Realizaţi zece tabele de contingenţă în care testati ipotezele notate la exerciţiul 


anterior. Scrieţi un scurt raport de o pagină în care descrieti ce ati aflat, 
folosind valorile reziduale ajustate. 


. Realizati un profil al părinţilor care sunt predispuşi să transmită copiilor lor 


valoarea „imaginaţie”. Profilul trebuie să conţină cinci variabile explicative 
nominale sau ordinale din chestionarul WVS 2012. 


. Testati profilul folosind tabele de contingenţă cu valori reziduale ajustate. 
„ Creați o variabilă nouă care reflectă statutul de membru activ în organizaţii 


voluntare. Verificaţi dacă media satisfactiei cu viata este diferită pentru membrii 
activi faţă de cei care sunt membri inactivi sau nu sunt membri. 


. Creați o variabilă nouă care reflectă statutul de membru activ, membru inactiv 


şi nonmembru în organizaţii voluntare. Verificaţi dacă media satisfactiei cu 
viaţa este diferită pentru aceste trei categorii. 


10. Creați o variabilă nouă care să reflecte intoleranta faţă de grupuri marginale 


sau minorităţi (persoane dependente de droguri, persoane de rasă diferită de 
a dumneavoastră etc.). Aceasta trebuie să folosească setul de variabile v36-v44 
din chestionarul WVS 2012. Variabila nou-creată trebuie să reprezinte numărul 
de grupuri pe care o persoană nu i-ar dori ca vecini. Verificaţi dacă numărul 
este mai mic pentru cei care fac voluntariat activ decât pentru cei care nu fac 
voluntariat. Verificaţi dacă există diferenţe în ceea ce priveşte numărul de 
categorii alese între cei care fac voluntariat activ, cei care nu fac voluntariat 
activ, respectiv cei care nu fac voluntariat deloc. 


7. Explorarea datelor: asumpţii 


Dacă două persoane au aceleaşi caracteristici, dar diferă în funcţie de venitul 
lunar câştigat, care va fi mai satisfăcută cu viata: cea cu un venit mai mare? În 
oraşele mari sunt mai multe persoane fericite decât în oraşele mici? Persoanele 
care au emigrat la o vârstă mai înaintată se adaptează mai uşor la modul de viaţă 
din ţara de destinaţie ? Studenţii care participă la activităţi de voluntariat au o 
şansă mai mare în a găsi un loc de muncă apropiat de aşteptările şi dorinţele lor ? 

Un cercetător organizat, înainte de a trece la elaborarea chestionarului, trebuie 
să anticipeze ce fel de analize solicită întrebările sale de cercetare. Deşi pare 
contraintuitiv, punând căruţa înaintea calului, în practică nu este chiar aşa. 
Degeaba formulezi întrebările şi alegi variantele de răspuns dacă nu eşti conştient 
de calităţile psihometrice pe care acestea le au. Când primeşte datele din teren 
şi ai în faţă baza de date, începi să te întrebi ce poţi face cu variabilele avute la 
dispoziţie şi, dacă nu te-ai gândit dinainte la corespondenţa cu tehnicile statistice, 
răspunsul s-ar putea să nu iti placă. Să presupunem că, măcar partial, cercetătorul 
a formulat întrebările din chestionar în acord cu cerinţele statistice ale obiectivelor 
de cercetare. Înainte de a trece la analiza propriu-zisă a datelor, adică la aplicarea 
tehnicii statistice prin care acestea răspund la întrebarea de cercetare, va trebui 
să inspecteze variabilele univariat, bivariat sau chiar multivariat. Când explorăm 
datele, căutăm să înţelegem dacă variabilele au suficientă variaţie, dacă există 
cazuri extreme, cum arată distribuţia acestora etc. 

Pentru înţelegerea unor analize descrise aici, cititorul ar trebui să aibă cunoş- 
tinte minime despre testele de semnificaţie. Câteva noţiuni elementare din aceasta 
zonă a statisticii au fost prezentate în capitolul 6. Totuşi, ar trebui să suplimentati 
această lucrare cu un manual de statistică. Am sugerat câteva astfel de lucrări în 
volumul de fata. 

În acest capitol, vom vorbi despre statistici şi grafice care ne ajută să decidem 
dacă există cazuri extreme, care este forma distribuţiei, dacă între două variabile 
există o relaţie liniară etc. Acestea ne ajută să ne cunoaştem datele înainte de a 
le folosi la calcularea unor statistici cum ar fi media sau abaterea standard. 
Analiştii trebuie să fie sceptici în legătură cu calitatea datelor lor. Acest scepticism 
previne erorile în interpretarea substanţială. 
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7.1. Distribuţia unei variabile 


Măsurarea este procesul prin care cercetătorul operaţionalizează conceptele cu 
care lucrează, construieşte instrumentele prin care culege date despre fenomenele 
pe care le cuprinde şi verifică validitatea şi fidelitatea acestora. Prin măsurare, 
de exemplu, ajungem la scalele compuse pe care le folosim frecvent în chestio- 
narele noastre. Unul dintre criteriile după care cercetătorul decide care sunt itemii 
pe care îi va păstra in scala finală este cel al irelevantei (Mărginean, 1982). Pe 
scurt, acest criteriu presupune eliminarea, din analizele prin care căutăm răspun- 
surile la întrebarea de cercetare, a itemilor cu care toţi respondentii sau o 
majoritate covârşitoare dintre aceştia sunt de acord sau nu. Pentru variabilele 
categoriale este relativ simplu să aflăm această informaţie. Putem realiza un tabel 
de frecvenţă şi inspecta distribuţia procentelor (tabelul 7.1). 


Tabelul 7.1. Tabel de frecvenţă: verificarea variaţiei variabilelor categoriale 






































V219 Information source: TV news 
Frequency Percent | Valid Percent} Cumulative 
Percent 
Valid 1 Daily 1235 82.1 82.3 82.3 
2 Weekly 137 9.1 9.1 91.4 
3 Monthly 19 1.3 1.3 92.6 
4 Less than 81 5.4 5.4 98.0 
monthly 
5 Never 30 2.0 2.0 100.0 
Total 1501 99.9 100.0 
Missing |-2 No answer 1 .0 
-1 Don’t know 1 „1 
Total 2 „1 
Total 1503 100.0 























Conform datelor WVS 2012, 82% dintre români foloseau, zilnic, ştirile 
prezentate la televizor ca sursă de informare despre ce se petrece în ţară şi în 
lume. Aceasta este o informaţie utilă şi interesantă despre comportamentul de 
informare al românilor şi nu numai. Are însă suficientă variaţie această variabilă 
dacă dorim să o includem într-o analiză multivariată ? Răspunsul nu este simplu 
de oferit. Dacă cercetătorul are argumente teoretice solide, poate decide să o 
folosească ca atare sau poate considera că ar fi mai util să o recodifice : tele- 
vizorul este, probabil, principala sursă de informaţie şi divertisment, fiind 
accesibil atât în ceea ce priveşte costurile, cât şi referitor la dificultatea conti- 
nuturilor prezentate. Presiunea timpului solicită formate scurte, concentrate, cu 
mesaje transmise în forme inteligibile pentru mase mari de privitori. Din acest 
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motiv, orice frecvenţă de utilizare, în afara celei zilnice, ar putea fi considerată 
aparte. Cei care se informează mai rar decât zilnic de la ştirile televizate au, 
probabil, caracteristici diferite faţă de ceilalţi. Viaţa socială este atât de complexă, 
încât decizia de a utiliza într-o formă sau alta această variabilă depinde de mulţi 
factori. 

Să nu intelegeti că procesul de explorare a datelor are ca unic scop găsirea 
problemelor. În primul rând, dorim să ne familiarizăm cu datele. Apoi, dorim să 
vedem dacă sunt modificări pe care trebuie să le aducem variabilelor pentru a 
utiliza cât mai multă informaţie culeasă prin chestionar. 

Agresti şi Finlay (2008) consideră distribuţia normală (cea care are formă de 
clopot) ca fiind cea mai importantă pentru analiza statistică deoarece aproximează 
destul de bine forma multor variabile din viaţa reală. Pentru a înţelege proprietăţile 
acestei distribuții şi de ce este importantă, trebuie să consultaţi capitolele dedicate 
acestui subiect din lucrarea citată sau din Agresti şi Franklin (2013). Deşi, în 
esenţă, cele două lucrări prezintă aceeaşi informaţie, cea din urmă are o formă 
de prezentare grafică mai prietenoasă. În acest moment, este suficient să reținem 
că multe dintre analizele inferentiale aplicate în mod obişnuit în ştiinţele sociale 
folosesc această distribuţie. Concepte importante asociate sunt distribuţia de 
eşantionare, eroarea standard sau teorema limită centrală. Toate sunt tratate 
comprehensiv în lucrările citate. 

Testele parametrice asumă distribuţia normală. De aceea, înainte de a rula şi 
interpreta astfel de teste, trebuie să verificăm dacă variabilele au sau nu o distri- 
buţie aproximativ normală. Dacă nu au, atunci putem utiliza testele nonparametrice 
echivalente (Cramer şi Howitt, 2004). Printre analizele pentru care verificarea 
asumptiei normalitatii distribuţiei este importantă se numără analiza de corelaţie 
Pearson, ANOVA, testele t şi regresia multiplă (de Vaus, 2002). Această discuţie 
se aplică variabilelor metrice. În practică, convenţional, se acceptă şi pentru 
variabilele ordinale (scală tip Likert). 

Putem verifica dacă această asumptie este îndeplinită folosind grafice sau 
calculând diferiţi indicatori şi teste statistice. Mai întâi discutăm despre metodele 
grafice. 

În figura 7.1 este prezentată distribuţia satisfactiei cu viata pentru români în 
2012 conform World Values Survey. 

Acest grafic a fost obţinut din meniul Analyze > Descriptive statistics > 
Fregencies > Charts. A fost editat aplicând paşii deja discutati în alte locuri 
din acest volum. 

Distribuţia satisfactiei cu viata, o variabilă măsurată pe o scală de la 1 la 10, 
unde 1 înseamnă „total nemulţumit” şi 10 „total mulţumit”, este alungită la stânga. 
Majoritatea românilor se poziţionează în partea pozitivă a scalei. Distribuţia se 
abate de la normalitate. Acest lucru nu este neapărat rău, pentru că satisfacția cu 
viata, în realitate, are o distribuţie de acest gen (Cummins, 2003). Ceea ce 
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îngrijorează, gândindu-ne la validitatea rezultatelor analizelor statistice, sunt 
frecvențele neaşteptat de mari pentru categoriile 1 şi 10, cei total nemulţumiţi sau 
mulţumiţi cu viaţa lor în general. Înainte de a calcula medii sau coeficienţi de 
corelaţie, trebuie să înţelegem de ce apar aceste două abateri de la normalitate. 
O altă problemă importantă, care este mai puţin vizibilă aici, apare atunci când 
există mai multe vârfuri şi goluri între aceste vârfuri. Distribuţia, în această 
situaţie, apare ca şi când ar fi formată din mai multe distribuții mici. Calcularea 
mediei sau medianei nu ar avea foarte mult sens în această situaţie. Hartwig şi 
Dearing (1979) recomandă să creăm variabile separate din cea iniţială şi să le 
utilizăm ca atare. 


Figura 7.1. Grafic bară pentru verificarea asumptiei de normalitate a distribuţiei 


Percent 





Satisfaction with your life 


Cases weighted by Weight 


Un grafic care oferă informaţii similare cu histograma, dar care adaugă si 
altele noi, este box-plot-ul. Acesta poate fi obţinut din Analyze > Descriptive 
statistics > Explore > Plots > Box-plot = Factor levels together (figura 7.2). 
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Figura 7.2. Meniul Explore 
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În WVS 2012, respondentii au fost rugaţi să se pozitioneze în ierarhia socială 
într-una dintre poziţiile : „clasa de jos”, „clasa muncitoare”, „în partea de jos 
a clasei mijlocii”, „în partea de sus a clasei mijlocii”, „în clasa de sus”. În 
figura 7.3 este prezentată distribuţia satisfactiei cu viata pentru fiecare dintre 
aceste poziţii sociale. 
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Figura 7.3. Box-plot: distribuţia satisfactiei cu viata în funcţie de poziţia socială 
subiectivă 
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Revenind puţin la meniul din care a fost obţinut box-plot-ul, observăm urmă- 
toarele (figura 7.2a) : 


e Presupunem că o variabilă, aici satisfacția cu viata (V23), variază în funcţie 
de o alta, aici autopozitionarea pe o scală a poziţiei sociale (V238). De aceea, 
variabila pentru care sunt calculate statisticile (medie, mediană, abatere standard 
etc.) va fi introdusă în câmpul Dependent List, iar variabila care dă grupurile 
pentru care sunt realizate comparatiile va fi introdusă în câmpul Factor List. 
Denumirea factor atribuită unei variabile categoriale care distinge între anumite 
grupuri a mai fost întâlnită la analiza de varianta. 

e Pentru a putea identifica mai uşor eventualele cazuri cu „probleme”, le eti- 
chetăm folosind variabila de identificare care nu trebuie să lipsească din nici 
o bază de date. Aici, această variabilă, care conţine ID-uri unice pentru fiecare 
respondent, este V3. 

e Pentru a nu încărca outputul cu multe informaţii, in prima fază, putem bifa 
doar opţiunea Plots în secţiunea Display. Dacă lăsăm bifată opţiunea Both, 
atunci în output vor fi afişate şi statisticile produse de meniu. Aici acestea vor 
fi calculate pentru fiecare poziţie socială. Am putea lua în considerare supri- 
marea temporară a acestora. 
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Spuneam că box-plot-ul ne oferă câteva informaţii mai puţin evidente din 
histogramă. Comparând poziţiile liniei îngroşate din interiorul cutiilor (mediana), 
observăm că aceasta ia valori din ce în ce mai mici pe măsură ce persoanele se 
autopozitioneaza în clase sociale aflate pe trepte din ce in ce mai joase ale ierarhiei 
sociale. În cazul de faţă trebuie să fim precauti cu interpretarea valorilor pentru 
„clasa de sus”, deoarece în această categorie sunt doar 17 persoane în eşantion. 
Apoi observăm că, mergând de la clasa de sus în jos, creşte şi variaţia satisfactiei 
cu viaţa (cutia este mai lungă, deci abaterea intercuartilă este mai mare). Precautia 
cu privire la numărul de cazuri din clasa de sus capătă şi mai mult sens aici, 
pentru că ne aşteptam să vedem variaţia cea mai restrânsă în această categorie. 
Continuăm cu citirea graficului. În clasa muncitoare, distribuţia este alungită la 
stânga (mediana se află înspre capătul de sus, cuartila 3, a cutiei). În cele două 
secţiuni ale clasei mijlocii, există cazuri extreme (outlieri) simbolizate prin cer- 
culete. SPSS identifică două tipuri de cazuri extreme: cele discutate şi cele care 
se află foarte departe în distribuţie, reprezentate cu steluțe. Atunci când încercăm 
să remediem problema cazurilor extreme, întotdeauna începem cu stelutele. 

Tabachnick şi Fidell (2007) oferă mai multe soluţii pentru gestionarea cazurilor 
extreme. Prima soluţie, cea radicală, este scoaterea din analize a persoanei sau a 
persoanelor respective. A doua soluţie, cea care caută să maximizeze utilizarea 
datelor aflate la dispoziţie, presupune aplicarea unor transformări variabilei care 
conţine cazurile extreme. O astfel de transformare poate fi obţinută, de exemplu, 
prin logaritmarea variabilei cu cazuri extreme. Cazurile vor rămâne în baza de date, 
dar influenţa lor va fi diminuată considerabil. O altă metodă constă în intervenţii 
directe asupra cazurilor extreme : valoarea extremă este recodificată în jos sau în sus. 
De exemplu, dacă salariul din ultima lună are valoarea extremă de 15.000 de lei, 
iar următoarea valoare, care nu este caz extrem, este 5.500 de lei, atunci putem 
recodifica în 5.600 de lei sau altă valoare aleasă în funcţie de distribuţia celorlalte 
valori. Soluţiile nu sunt simplu de ales. Lucrurile se complică şi mai mult dacă 
reținem că discuţia, până în acest punct, a fost despre cazurile extreme univariate 
ignorandu-le pe cele multivariate (o persoană care a absolvit facultatea, are 24 de ani 
şi la primul loc de muncă primeşte un salariu lunar de 10.000 de lei). Aceiaşi autori 
atrag atenţia că soluţiile enunțate s-ar putea să nu funcţioneze bine în modelele 
multivariate. Mai mult, Hair şi colaboratorii (2010) atrag atenţia că ştergerea sau 
modificarea cazurilor extreme poate avea un efect pervers grav : modelele multivariate 
vor fi mai bune din punct de vedere statistic, dar mai puţin generalizabile la populaţia 
pentru care facem inferente. Vă recomand să consultaţi aceste două lucrări, pentru 
că oferă exemple detaliate despre cum se identifică şi gestionează cazurile extreme. 

Deoarece depăşeşte scopul acestei lucrări, nu mai insistăm asupra aspectelor 
teoretice ale acestei teme, aşadar vom discuta în continuare doar despre partea 
operaţională a identificării rapide a cazurilor extreme. Am discutat despre cazurile 
extreme univariate. În figura 7.3 am observat că o persoană care are id-ul 869 
este considerată caz extrem. În SPSS, putem consulta imediat răspunsurile oferite 
de acest respondent la diferite variabile din chestionar. O variantă presupune să 
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mergem în Data View, unde dăm click în prima celulă din dreptul variabilei V3 


(cea care conţine id-urile respondentilor), apăsăm pe iconita dă şi tastăm în 
câmpul Find 869 (figura 7.4). Apoi apăsăm butonul Find Next, comandă care 
ne va duce la celula din V3 care conţine numărul 869. 


Figura 7.4. Find 
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Putem selecta rândul care conţine acest respondent dând click pe numărul 
rândului, după care vom naviga folosind bara orizontală de scroll. Mai simplu ar 
fi însă ca ID-ul să rămână vizibil, schimbând doar poziţia celorlalte variabile. 
Pentru aceasta, mergem în meniul Window > Split (figura 7.5). 


Figura 7.5. Meniul Window > Split 


V3 V4 V6 Vi V8 vg 
c70 1 2 J 2 J 
€71 1 1 
€72 1 3 





3 1 1 
2 2 3 


Fereastra se împarte în două sau patru secțiuni, în functie de varianta de SPSS 
cu care lucraţi, fiecare fiind navigabilă de sine stătător. Acum, de exemplu, ţinând 
constantă poziţia lui V3, în cadranul din stânga sus, putem naviga orizontal în 
cadranul din dreapta pentru a vedea ce valori ia respondentul cu ID-ul 869 la alte 
variabile. Există posibilitatea ca acea valoare extremă să fie doar o eroare de 
introducere a datelor. Adică operatorul de introducere, în loc să tasteze valoarea 5, 
a tastat valoarea 1. La variabilele subiective (valori, atitudini, evaluări etc.) este 
greu să ne dăm seama de aceste lucruri, dar la venituri sau proprietăți s-ar putea 
să fie mai uşor. Cert este că, înainte de a lua o decizie de transformare sau 
ştergere, trebuie să verificăm chestionarele în original (dacă putem). 
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Am insistat asupra cazurilor extreme pentru că, de multe ori, asumptia de 
normalitate a distribuţiei este încălcată pentru că acestea există. 

Histograma şi box-plot-ul sunt rapid de construit şi uşor de interpretat. Un alt 
grafic, creat special pentru evaluarea acestei asumptii, şi care nu are dezavantajale 
celorlalte două, este normal probability plot. În figura 7.5 este prezentat un 
grafic similar, normal q-q plot, pentru satisfacția cu viata în cadrul categoriei 
„partea de jos a clasei mijlocii”. Distribuţia normală este reprezentată prin linia 
diagonală, iar distribuţia datelor din eşantion pentru satisfacția cu viata este data 
de succesiunea cerculetelor. Dacă variabila are o distribuţie normală, atunci 
cerculetele ar trebui să cadă aproximativ pe linie. 


Figura 7.6. Normal probability plot 


Normal Q-Q Plot of Satisfaction with your life 
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Acest grafic se obtine din meniul Analyze > Descriptive statistics > 
Explore > Plots = Normality plots with tests (Figura 7.2b). Dacă dorim să 
vizualizăm graficele normal p-p, nu pe cele normal q-q, atunci putem folosi alt 
meniu pentru a le obtine: Analyze > Descriptive statistics > P-P Plots sau 
Q-Q Plots (Figura 7.7). Dacă dorim să realizăm aceste grafice pentru diferite 
categorii ale altei variabile, aşa cum am făcut cu autopozitionarea în ierarhia 
socială, atunci trebuie mai întâi să separăm (split file) baza de date după această 
variabilă sau să activăm anumite filtre (select cases). 
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Figura 7.7. Normal P-P Plots 
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Graficele ne ajută, dar, deseori, avem nevoie şi de indicatori specifici creaţi 
pentru aceleaşi scopuri. Aş vrea să ne întoarcem puţin la cazurile extreme. O metodă 
prin care verificăm dacă o valoare este extremă constă în transformarea acelei 
valori în scor z. Cazurile care au scoruri z la variabila explorată cu valori mai 
mari decât aproximativ 3, ignorând semnul, sunt potenţiali outlieri. Trebuie să 
ne reamintim aici de regula empirică aplicabilă distributiilor aproximativ normale 
(Agresti şi Finlay, 2008). Scorurile z pot fi calculate din meniul Analyze > 
Descriptive statistics > Descriptives > Save standardized values as variables 
(figura 7.8). Opţiunea aceasta creează o variabilă nouă. 


Figura 7.8. Descriptives, scoruri z 
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Pentru a vedea rezultatul, mergem în Data View, la variabila nou-creată. 
Aceasta va fi la sfârşitul bazei de date. Pentru a o găsi rapid, mergem în meniul 
Utilities > Variables. Se va deschide fereastra din figura 7.9. 


Figura 7.9. Find variables 
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Selectăm orice variabilă din stânga şi tastăm rapid litera z, deoarece variabila 
nou-creată va fi denumită automat de SPSS care va pune această literă ca prim 
caracter. Dacă avem mai multe variabile standardizate, atunci tastăm rapid zv23. 
Apoi apăsăm Go To şi ne va duce la variabila dorită. Ne interesează valorile 
extreme, mai mari decât 3, în valoare absolută. Pentru a inspecta vizual uşor, 
sortăm baza de date. Mergem în meniul Data > Sort Cases, introducem variabila 
ZV23 în câmpul Sort by şi, la Sort Order, bifăm Ascending (figura 7.10). 


Figura 7.10. Sort Cases 
ia: Sort Cases X| 
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Apoi mergem în Data View şi inspectăm valorile. Cea mai mică este -2.37. 
Repetăm procedura, dar sortând Descendindg. Cea mai mare este 1.38. După 
criteriul z > 3 (în valoare absolută), nu avem cazuri extreme. Observăm cum 
cercetătorul trebuie să îşi folosească raţiunea atunci când decide ce este şi ce nu 
este caz extrem. Nu lăsăm programul să ia decizii pentru noi. Ca regulă de lucru, 
verificarea prin aplicarea mai multor tehnici cu acelaşi obiectiv este esenţială. 

Doi dintre cei mai utilizaţi indicatori statistici pentru verificarea normalitatii 
distribuţiei sunt skewness (alungire) şi kurtosis (aplatizare). În SPSS, aceşti indi- 
catori sunt centrati în jurul valorii O ce reprezintă distribuţia normală. Când 
distribuţia este alungită la dreapta, indicatorul de skewness are valoare pozitivă. 
Când distribuţia este alungită la stânga, indicatorul de skewness are valoare negativă. 
Când observaţiile sunt grupate strâns în jurul mediei, indicatorul de kurtosis are 
valoare pozitivă. Când observaţiile sunt dispersate în jurul mediei, indicatorul de 
kurtosis are valoare negativă. Însă aceşti indicatori, în eşantioanele cu volum mare, 
pot să arate abateri de la normalitate, chiar şi atunci când acestea sunt mici 
(Tabachnick şi Fidell, 2007). De aceea, interpretarea lor trebuie combinată cu ceea 
ce ne oferă graficele discutate. Aceşti indicatori pot fi obţinuţi din mai multe 
meniuri : Frequencies, Descriptives sau Explore. Dacă ne interesează valorile 
pentru o variabilă în cadrul întregului eşantion, atunci putem să o alegem pe oricare 
dintre ele. Dacă vrem însă să aflăm aceste valori pentru diferite categorii ale altei 
variabile, ar fi mai util să folosim Explore. Motivul este simplu : pentru Frequencies 
şi Descriptives ar trebui, în prealabil, să separăm (split file) baza de date. Am face 
o operaţie în plus. Figura 7.11 prezintă opţiunile din Frequencies şi Descriptives. 
Meniul Explore le calculează implicit. 


Figura 7.11. Meniurile Frequencies şi Descriptives : calcularea skewness şi kurtosis 
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„ai Descriptives: Options 
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Aici, indicatorii skewness şi kurtosis arată uşoare abateri, dar nimic grav: 
valori absolute mai mici decât 1 la skewness pentru toate poziţiile sociale şi doar 
o valoare de aproximativ 1.5 la kurtosis pentru partea de sus a clasei mijlocii 
(tabelul 7.2). 

Putem combina valorile de la skewness şi kurtosis cu cele de la medie, mediană 
şi medie. Dacă media şi mediana au valori apropiate, este mai probabil să nu 
avem cazuri extreme. Abaterea standard ne va ajuta să înţelegem, de asemenea, 
cât de omogene sunt grupurile. Să ţinem minte însă că am considerat scala de 10 
puncte ca fiind metrică. Rezultatele pot fi influențate de acest lucru. De asemenea, 
să ţinem minte că nu toate variabilele au o distribuţie naturală normală, deci să 
nu căutăm normalitate acolo unde este greu de găsit. 


Tabelul 7.2. Skewness şi kurtosis. Calcule efectuate în meniul Explore. 
Tabele obţinute prin pivotare 


























Descriptives 
Statistics= Skewness 
V238 Social class Statistic Std. Error 
(subjective) 
V23 Satisfaction with your life | 1 Upper class -.532 „553 
2 Upper middle class -.927 „141 
3 Lower middle class -.641 „117 
4 Working class - 477 .106 
ee 5 Lower class 030] .192 
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Descriptives 
Statistics= Kurtosis 
V238 Social class Statistic Std. Error 
(subjective) 
V23 Satisfaction with your life |1 Upper class -1.038 1.069 
2 Upper middle class 1.472 „281 
3 Lower middle class 446 .233 
4 Working class -.452 „211 
5 Lower class -.945 381 

















7.2. Relaţia liniară dintre două variabile 


Această asumptie priveşte relaţiile dintre două variabile. Asumptia discutată 
anterior, chiar dacă am făcut trimiteri şi către normalitatea multivariată, a fost 
dezvoltată într-un cadru univariat. 

Analiza de corelaţie, care calculează coeficientul de corelaţie Pearson r, este 
frecvent utilizată în cercetarea socială. Aceasta ne arată dacă, între două variabile 
metrice, există o relaţie : la o anumită valoare a variabilei X, variabila Y ia o 
anumită valoare. Mai general, pentru o mulţime de persoane, dacă valorile 
variabilei X cresc sau scad, atunci cresc sau scad şi valorile variabilei Y (relaţie 
direct proporţională), sau dacă valorile variabilei X cresc sau scad, atunci scad 
sau cresc valorile variabilei Y (relaţie invers proporţională). Coeficientul de 
corelaţie Pearson r ia valori în intervalul [-1, 1]: când r = -1, relaţia este 
perfect negativă, când r = 0, între X şi Y nu există o relaţie, iar când r = 1, 
relaţia este perfect pozitivă. Analiza este simplu de interpretat. Acest lucru o 
face şi atractivă, probabil. Totuşi, este foarte uşor să greşim atunci când 
interpretăm coeficientul de corelaţie Pearson r dacă nu am verificat două 
asumptii esenţiale ale acestei analize. Prima asumptie se referă la prezenţa 
cazurilor extreme (outlieri). A doua asumptie se referă la existenţa unei relaţii 
liniare între cele două variabile, adică o relaţie care poate fi aproximată printr-o 
dreaptă. 

Să luăm relaţia dintre anul naşterii şi vârstă. În baza de date WVS 2012, avem 
ambele variabile. Vârsta este egală cu anul în care a fost aplicat chestionarul în 
România, 2012, minus anul naşterii respondentului. Aşadar ar trebui să avem o 
relaţie perfect liniară negativă: când anul naşterii creşte ca valoare, adică este 
mai apropiat de zilele noastre, vârsta va scădea. Ambele variabile sunt metrice, 
valorile pe care le pot lua cele două putând fi folosite în calcule aritmetice. 
Evident, acesta este un exemplu didactic care ne permite să vizualizăm o relaţie. 
În practică, nu ar aduce o contribuţie prea mare ştiinţei investigarea relaţiei dintre 
acestea. Putem vedea dacă relaţia este liniară folosind graficul scatterplot sau, 
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în limba română, „nor de puncte”. În figura 7.12 este prezentat acest grafic 
realizat pentru cele două variabile. 


Figura 7.12. Scatterplot (nor de puncte) care arată o relaţie perfect liniară 
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Acest grafic a fost obţinut mergând în meniul Graphs > Chart Builder 
(figura 7.13). Puteţi lucra şi cu Graphs > Legacy Dialogs sau Graphs > 
Graphboard Template Chooser. Rezultatele vor fi, în principiu, aceleaşi. 

Aşa cum ne-am obişnuit, în stânga, în secţiunea Variables sunt toate variabilele 
din baza de date. De aici vom selecta, pe rând, cele două variabile : anul naşterii 
(V241) şi vârsta in ani impliniti (V242). Imediat sub această fereastră, SPSS 
afişează valorile variabilei selectate. În partea de jos a ferestrei există patru taburi : 
Gallery, Basic Elements, Groups/Point ID şi Titles/Footnotes. În Gallery sunt 
graficele dintre care îl vom alege pe cel care ne interesează. Aici ne interesează 
scatterplotul, de aceea dăm click pe Choose from: Scatter/Dot (figura 7.13a). 
În partea dreaptă s-au activat opt tipuri de grafice (de la stânga la dreapta): 
simple scatter, grouped scatter, simple 3-d scatter, grouped 3-d scatter, 
summary data plot, simple dot plot, scatterplot matrix şi drop-line. Noi vom 
utiliza graficul simple scatter. Mergem cu cursorul pe el şi dăm dublu click. Se 
va activa, în partea centrală a imaginii, structura graficului în care trebuie să 
introducem informaţia necesară (figura 7.13b). Pe axa X vom pune variabila pe 
care o considerăm explicativă. Aici nu are prea mult sens această delimitare între 
variabilă explicativă (independentă) şi variabilă explicată (dependentă). Dar, de 
dragul prezentării, vom pune anul naşterii (V241) pe axa X, pornind de la ideea 
că vârsta este derivată din ea. Selectăm V241 şi, prin drag-and-drop, o aducem 
pe axa X. Procedăm similar cu vârsta, V242, dar pe aceasta o ducem pe axa Y. 


Figura 7.13. Meniul Graphs > Chart Builder 
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Chart preview uses example data 
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Dacă apăsăm OK, obţinem graficul în care observăm că există un punct ce 
se abate de la relaţia aşteptată. Pentru a-l putea identifica uşor, ar fi util să ştim 
care este id-ul său unic în baza de date. Nu uitaţi că, într-o bază de date, toate 
unităţile introduse trebuie să aibă un id unic. Pentru etichetare trebuie să revenim 
în meniul Graphs > Chart Builder şi să utilizăm tabul Groups/Point ID 
(figura 7.13c). Selectăm Point ID label. Observăm cum, în fereastra Chart preview, 
a apărut o nouă căsuţă intitulată Point label variable ? . Aici trebuie să introducem 
variabila care conţine id-urile unice ale respondentilor. În baza de date WVS 2012, 
aceasta este V3. O selectăm şi, prin drag-and-drop, o aducem în căsuţa activată. 
Dacă apăsăm OK, va rezulta graficul din figura 7.12b. Aşadar, persoana care se 
abate de la relaţia aşteptată are id-ul unic în baza de date 1114. Pentru a vedea ce 
valori are această persoană la anul naşterii (V241) şi vârstă (V242), avem mai 
Apoi, am putea căuta valoarea 1114 la V3 fie folosind bara verticală de navigaţie 
(scroll), fie folosind procedeul Find. Observăm o inadvertenţă: anul naşterii 
pentru persoana cu id = 1114 este 1934. În aceste condiţii, ne-am aştepta ca vârsta 
să fie egală cu 78 de ani. 


Figura 7.14. Window > Split: consultarea vizuală în Data View 
a unor inadvertente în date 
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Dar aici este egală cu 38 de ani. Dacă nu ar exista astfel de erori, corelatia 
Pearson dintre anul naşterii şi vârstă ar fi egală cu -1. Acum însă este redusă 
la -0.99. Aici nu simţim foarte clar efectul cazurilor extreme pentru că, practic, 
realizăm o corelaţie a unei variabile cu ea însăşi. Însă, atunci când corelăm două 
variabile care măsoară lucruri diferite, efectul cazului extrem ar putea fi dramatic. 
O a doua metodă prin care putem vedea ce valori ia cazul cu id-ul 1114 la V241 
şi V242 presupune următoarele : activăm un filtru care respectă condiţia V3 = 
1114 şi apoi realizăm câte un tabel de frecvenţă pentru fiecare dintre cele două 
variabile. Prima metodă este preferată de începătorii care vor să vadă datele. 
A doua metodă ar trebui însă să fie cea pentru care optăm deoarece ne permite 
să salvăm sintaxele celor două acţiuni păstrând astfel şi jurnalul activităţii de 
analiză. 

Vizualizarea relaţiilor liniare prin utilizarea scatterploturilor este posibilă doar 
când ambele variabile sunt cu adevărat metrice şi au valori multe. Observăm în 
figura 7.15 un scatterplot cu anul naşterii pe axa X şi numărul de ţări în care 
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respondentul a muncit sau studiat. Deşi ambele sunt metrice, numărul de ţări are 
o distribuţie in formă de J, adică majoritatea persoanelor indică un număr mic 
de ţări. Este greu să apreciem, din acest grafic, ce fel de relaţie este între cele 
două variabile. 


Figura 7.15. Limitele scatterplotului: când o variabilă are puţine valori 
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Jaccard şi Jacoby (2010) oferă o explicaţie frumoasă şi uşor de înţeles a funcţiei 
liniare. Totuşi, acest subiect capătă şi mai mult sens dacă se trece într-un cadru 
multivariat. Regresia liniară multiplă are mai multe asumptii, iar înţelegerea 
acestora şi a metodelor lor de testare va face mult mai clar modul în care putem 
depista relaţii nonliniare între variabilele care ne interesează (Berry, 1993). 


7.3. Soluţii la încălcarea asumptiei de normalitate 
a distribuţiei 


Deseori, asumptia normalitatii este încălcată datorită prezenţei cazurilor extreme. 
Uneori, de exemplu, când sunt foarte puţine, putem şterge cazurile extreme, 
rezolvând astfel şi problema normalitatii. Alteori însă lucrurile nu sunt atât de 
simple. 

O soluţie des utilizată de cercetătorii experimentați, atunci când asumptia de 
normalitate este încălcată, constă în transformarea matematică a uneia dintre 
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variabile sau chiar a mai multora. Hair et al. (2010), Tabachnick şi Fidell (2007) 
sau Field (2007) sunt doar câteva dintre lucrările în care ne sunt prezentate 
alternativele pe care le avem la îndemână. Trebuie însă să reținem că aceste 
transformări nu sunt soluţii minune. De exemplu, interpretarea modelelor în care 
sunt folosite variabile transformate este mai dificilă decât atunci când utilizăm 
unităţile de măsură originale. 
Pentru că depăşeşte scopul acestei lucrări, vom reda doar câteva dintre trans- 
formările uzuale, aşa cum sunt recomandate de autorii citați : 
- distribuție alungită la dreapta, distanţa dintre valorile minime şi maxime 
„normale” este mică: logaritmăm variabila ; 
- distribuție alungită la dreapta, distanţa dintre valorile minime şi maxime 
„normale” este ceva mai mare: radical din variabilă ; 
- distribuție alungită la dreapta, cu formă care aproximează litera J întoarsă 
(censored): calculăm raportul dintre 1 şi variabilă (1/variabilă). 


O lucrare foarte utilă pentru cei care vor să pătrundă tainele acestor probleme 
matematice îi aparţine lui John Fox (2009). 


7.4. Exerciţii 


Pentru aceste exerciţii utilizăm baza de date şi/sau chestionarul World Values 
Survey 2012 rezultată(e) în urma aplicării chestionarului în România. Baza de 
date poate fi descărcată de pe pagina de internet a Grupului Românesc pentru 
Studiul Valorilor Sociale (http : //www.romanianvalues.ro). 


1. Verificaţi asumptiile pentru toate exerciţiile de la capitolul 6. 
2. Propuneţi soluţii de îmbunătăţire a situaţiei acolo unde este cazul. 


8. Corelaţia şi regresia liniară multiplă 


Care este relaţia dintre veniturile unei persoane şi numărul anilor de educaţie 
formală absolviti? Are sens investiţia de timp şi resurse în educaţie? Cresc 
veniturile odată cu numărul anilor de educaţie formală absolviţi ? Notele primite 
la testul-grilă cresc odată cu numărul de cursuri şi seminarii la care studenţii 
participa? Sau, mai degrabă, notele tind să fie mai mari atunci când studenţii 
petrec mai multe ore studiind individual? Satisfactia cu viata este mai ridicată 
atunci când persoanele consideră că au control asupra propriei vieţi ? Acesta este 
un tip de întrebări pe care ni le punem frecvent în procesul de cercetare. De fapt, 
abstractizând, ne întrebăm dacă între două variabile există o corelaţie. Termenul 
corelaţie este nou, dar ideea nu, aceasta devenind familiară deja de la asocierea 
testată prin tabele de contingenta şi chi square (hi pătrat). 

Acesta este un pas intermediar către analiza multivariată. De fapt, viaţa socială 
este complexă şi nu poate fi explicată adecvat folosind analize bivariate. Trebuie 
să învăţăm cum putem utiliza, simultan, mai mulţi predictori pentru aceeaşi 
variabilă dependentă. Veniturile unei persoane depind atât de educaţia formală 
acumulată, cât şi de capitalul cultural moştenit de la părinţi, generaţia din care 
face parte, sexul acesteia, vârsta, sistemul de valori la care aderă, tipul localităţii 
în care locuieşte etc. Notele primite la testul-grilă depind de prezenţa fizică la 
ore deoarece studentul poate nota idei şi exemple oferite spontan de profesor, 
poate pune întrebări prin care să îşi clarifice concepte şi moduri de lucru, dar şi 
pentru că poate discuta în pauze cu colegii despre ceea ce au audiat în timpul 
întâlnirii. De asemenea, contează şi studiul individual. Dar toate aceste relaţii se 
pot modifica dacă luăm în considerare, de exemplu, gradul de extraversiune al 
studenţilor. O persoană care consideră că are control asupra propriei vieţi ar putea 
fi mai mulţumită cu viata sa. Dar multumirea depinde şi de starea de sănătate, 
de starea civilă, situaţia financiară etc. Aşadar, o explicaţie cere considerarea 
simultană a mai multor factori care determină variaţia fenomenului care ne 
interesează. Una dintre cele mai utilizate analize multivariate este regresia liniară 
multiplă. 

În prima parte a capitolului vom discuta despre corelatia liniară necesară pentru 
înţelegerea regresiei liniare multiple. Apoi, vom prezenta, într-o manieră nonteh- 
nică, principiile regresiei liniare multiple şi aplicabilitatea acesteia. 
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8.1. Corelatia liniară 


Numele analizei bivariate discutate aici implică asumptia ca, între cele două variabile 
pentru care calculăm coeficientul de corelaţie, există o relaţie liniară, adică o relaţie 
care poate fi reprezentată printr-o dreaptă. Relaţiile sunt de tipul: (a) X1 creşte, 
X2 creşte ; (b) X1 creşte, X2 scade; (c) X1 scade, X2 creşte; (d) X1 scade, X2 
scade. Nu există puncte de inflexiune. Atunci când există puncte de inflexiune, 
relaţia nu mai este liniară. De exemplu, relaţia dintre vârstă şi satisfacția cu viaţa 
nu este liniară. Pentru a înţelege mai bine, să privim figura 8.1. 


Figura 8.1. Relaţia nonliniară dintre vârstă şi satisfacția cu viata 


Satisfactia cu viata 





Varsta 


Cases weighted by Weight 


Satisfactia cu viata are valoare maximă începând cu 18 ani (vârsta minimă în 
eşantionul WVS 2012 pentru România). Aceasta descreşte constant, dar, la o 
anumită vârstă, pare să revină pe un trend ascendent. Acel punct de inflexiune 
arată o relaţie nonliniară între cele două variabile. 

O altă asumptie a corelaţiei liniare este că ambele variabile sunt cantitative, 
adică, în termenii nivelurilor de măsurare, de interval sau raport. În ştiinţele 
sociale, frecvent, scalele simple tip Likert (o întrebare cu minim 4 variante de 
răspuns de tipul acord/dezacord), dar şi scorurile derivate din cele compuse sunt 
considerate de interval, deci cantitative. De exemplu, satisfacția cu viata măsurată 
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pe o scală de la 1 la 10 este utilizată deseori în analize în acest mod. Nu are sens 
calculul coeficientului de corelaţie pentru variabilele categoriale, adică nominale 
şi ordinale de tipul categorii ordonate. 

Corelaţia nu înseamnă cauzalitate. Analiza de corelaţie ne arată doar că două 
variabile variază împreună, felul relaţiei (direct sau invers proporţională) şi cât 
de puternică este aceasta. Însă nu putem spune cu certitudine că X1 o determină 
pe X2 sau invers. Pentru o interpretare în termeni cauzali, cercetătorul trebuie să 
respecte o serie de principii chiar în designul cercetării, cum ar fi opţiunea pentru 
experiment sau anchetă prin chestionar. În practică, cercetătorul nu gândeşte în 
termenii X1 şi X2, ci în termenii X şi Y, adică o variabilă independentă şi una 
dependentă. Adecvarea şi consistenţa interpretării ţine de corectitudinea logicii 
cercetătorului. Un domeniu în care erorile de interpretare ale analizei de corelaţie 
sunt foarte posibile este cel al fericirii şi satisfactiei cu viata. Care este, spre 
exemplu, relaţia dintre starea de sănătate percepută şi satisfacția cu viata? O 
persoană despre care se consideră că este mai sănătoasă va fi mai satisfăcută cu 
viaţa sau o persoană mai satisfăcută cu viaţa se va considera mai sănătoasă ? 
Răspunsul nu este unul simplu, ambele variante având un anumit grad de plau- 
zibilitate. În multe studii însă, satisfacția cu viata este considerată variabila 
dependentă, iar starea subiectivă de sănătate este considerată variabila indepen- 
dentă. Starea subiectivă de sănătate depinde, în mare măsură, de starea obiectivă 
de sănătate (prezenţa unei boli temporare, a unei boli cronice, a unui handicap 
etc.), deci, dacă se intervine asupra stării obiective de sănătate, se va ajusta şi 
starea subiectivă de sănătate şi, într-un final, satisfacția cu viata, privită ca un 
rezultat al vieţii de calitate. Iar o viaţă de calitate cu o stare de sănătate precară 
este destul de greu de imaginat. 

Există mai mulţi indicatori de corelaţie. Alegerea unuia depinde de caracte- 
risticile variabilelor pe care dorim să le corelăm : variabilele corelate pot să ia 
multe valori, iar acestea sunt numere ; variabilele corelate conţin ranguri naturale ; 
variabilele corelate sunt dihotomice natural sau sunt dihotomice obţinute prin 
recodificarea unor variabile continue etc. Aici discutăm despre coeficientul de 
corelaţie Pearson r, care presupune că ambele variabile sunt cantitative continue 
(valorile variabilelor sunt numerice şi destul de multe). Alături de acesta, mai 
des întâlniți în practică sunt coeficienţii de corelaţie Spearman, Kendall şi Gamma. 
Aceştia sunt specifici variabilelor ordinale, dar sunt utilizaţi şi atunci când anumite 
asumptii, cum ar fi cea a distribuţiei normale bivariate, sunt încălcate. Sunt 
corelaţii nonparametrice, spre deosebire de Pearson, care este parametrică. O descriere 
foarte bună a celor mai utilizaţi coeficienţi de corelaţie a fost realizată de Chen 
şi Popovich (2002). 

În SPSS analiza de corelaţie are un meniu dedicat: Analyze > Correlate. 
SPSS poate calcula două tipuri de corelaţii din acest meniu : corelaţie bivariată 
şi corelaţie parţială. În acelaşi meniu mai există opțiunea calculării unor distanţe 
între cazuri sau variabile. Această analiză este însă în afara intereselor noastre şi 
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poate fi înţelească mai bine în contextul analizei cluster. Meniul pentru corelatia 
bivariată, Analyze > Correlate > Bivariate, ne permite calcularea a trei coe- 
ficienti de corelaţie: Pearson, Kendall’s tau-b şi Spearman (figura 18.2). 


Figura 8.2. Meniul corelatiei bivariate (Correlate > Bivariate) 
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În secţiunea din stânga sus sunt toate variabilele din baza de date. De aici 
selectăm variabilele pe care dorim să le corelăm şi, folosind săgeata dintre cele 
două secţiuni, le trecem în secţiunea din dreapta sus. Trebuie să introducem minim 
două variabile. Nu este obligatoriu să introduceţi doar două. Dacă introducem 
opt variabile pentru care dorim să calculăm coeficientul de corelaţie Pearson, 
atunci va rezulta un tabel cu opt rânduri şi opt coloane, fiecare dintre cele opt 
variabile fiind corelată, pe rând, cu ea însăşi şi cu toate celelalte şapte. Aşadar, 
indiferent de numărul de variabile pe care le introducem în analiza corelatiei, 
rezultatul va fi tot bivariat. În figura 8.2 am introdus doar două variabile, v23 şi 
v55. Prima reflectă răspunsurile la întrebarea din WVS 2012 „Dacă luaţi in 
considerare toate aspectele vieţii dvs. din ultimul timp, în ce măsură sunteţi 
mulţumit de ea? (utilizaţi scala de mai jos, în care 1 înseamnă «total nemulţumit» 
şi 10 «total multumit»)”. A doua reflectă răspunsurile la întrebarea din aceeaşi 
cercetare „Unii oameni cred că au libertate totală de alegere şi de control asupra 
vieţii lor, iar alţi oameni cred că, indiferent ce fac, nu pot influenţa ce li se 
întâmplă în viaţă. Vă rugăm să folosiţi scala următoare pentru a indica câtă 
libertate de alegere credeţi că aveţi dvs., dând o notă de la 1 la 10, unde 1 înseamnă 
că «Nu am deloc», iar 10 că «Am libertate deplină»”. 

Următorul pas constă în alegerea coeficientului de corelaţie pe care dorim să-l 
calculăm. Interpretarea coeficientului de corelaţie este relativ simplă şi directă. 
Dacă valoarea p calculată este mai mică sau egală cu pragul teoretic de 0.05, 
atunci consultăm semnul coeficientului, care ne spune direcţia relaţiei, urmând 
ca mai apoi să interpretăm puterea relaţiei dată de valoarea absolută a coeficien- 
tului de corelaţie. 

Toţi cei trei coeficienţi, Pearson, Kendall tau-b şi Spearman, variază între [-1, 1]. 

Interpretarea semnului se face în funcţie de semnificaţia valorilor pe care le 
iau cele două variabile analizate. Dacă variabilele sunt numere, atunci interpretarea 
este simplă. Când numărul de ore petrecute studiind individual la statistică creşte, 
ne aşteptăm ca notele luate la teste să crească. Semnul va fi plus. Când numărul 
anilor de educaţie formală creşte, ne aşteptăm ca veniturile persoanei să crească. 
Semnul va fi plus. Când numărul sortimentelor vândute într-un magazin este 
mare, ne aşteptăm ca numărul clienţilor acelui magazin să fie mare. Semnul va 
fi plus. Dar dacă calculăm coeficientul de corelaţie Pearson pentru două variabile 
măsurate fiecare pe o scală de 10 puncte, atunci trebuie să citim cu atenţie eti- 
chetele atribuite codurilor. Dacă 1 înseamnă satisfacţie scăzută cu viaţa şi 10 
satisfacţie ridicată, iar 1 înseamnă absenţa controlului asupra propriei vieţi şi 10 
înseamnă control total, atunci semnul va fi plus. Dacă una dintre cele două 
variabile ar fi codificată în alt sens, de exemplu 1 ar însemna satisfacţie ridicată 
cu viaţa şi 10 satisfacţie scăzută, iar la control scala s-ar păstra, atunci semnul 
ar fi minus. 

Valorile extreme indică relaţii perfecte de interdependenta între cele două 
variabile. Valoarea 0 poate însemna absenţa unei relaţii de interdependenta. Dar, 
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dacă ne reamintim de asumptia liniaritatii, dar şi de cea a distribuţiei bivariate 
normale, un coeficient Pearson egal cu zero poate sugera şi o relaţie nonliniară, 
atunci când aceste asumptii nu sunt respectate. Adică între cele două variabile 
există o relaţie care nu este liniară (figura 8.1), deci nu poate fi reprezentată 
numeric corect prin coeficientul Pearson. Nu există o regulă larg acceptată despre 
relaţia dintre valoarea coeficientului de corelaţie şi tăria corelatiei. De regulă, 
valorile absolute mai mici de 0.3 sunt considerate corelaţii slabe spre moderate, 
între 0.3 şi mai mici de 0.6 sunt considerate corelaţii moderate spre puternice, 
iar mai mari sau egale cu 0.6 sunt considerate corelaţii puternice. Totuşi, inter- 
pretarea depinde de domeniul studiat, iar aceste valori au un caracter orientativ. 
Trebuie ţinut cont şi de forma distribuţiilor celor două variabile : când sunt diferite 
de cea normală şi/sau diferite între ele, atunci valorile maxime, -1 sau 1, sunt 
mai greu de atins (Carroll, 1961). De asemenea, Chen şi Popovich (2002) atrag 
atenţia că în eşantioanele mici, de câteva zeci de cazuri, este foarte probabil să 
avem coeficienţi de corelaţie cu valori mari, chiar dacă în populaţie valorile sunt 
mici sau corelatia este inexistentă. În aceeaşi situaţie, trebuie să fim atenţi şi la 
cazurile extreme care pot afecta mărimea sau chiar direcţia coeficientului de 
corelaţie Pearson. Lucrarea celor doi autori detaliază toate problemele care pot 
influența rezultatul analizei de corelaţie, atunci când folosim coeficientul de 
corelaţie Pearson. 

O altă problemă pe care trebuie să o avem în vedere când interpretăm un 
coeficient de corelaţie Pearson se referă la relaţia iluzorie dintre cele două 
variabile corelate. Relaţia iluzorie (spurious) atestă existenţa a cel puţin unei alte 
variabile, X3, care explică relaţia dintre X1 şi X2. Kline (2011) arată cum relaţia 
dintre numărul de cuvinte pe care un copil îl are în vocabular (X1) şi mărimea 
pe care o poartă la pantof (X2) este iluzorie, ambele fiind, de fapt, determinate 
de vârsta copilului (X3) folosită aici ca proxy pentru maturizarea educaţională 
şi fizică. Astfel de situaţii trebuie identificate teoretic de cercetător în acord cu 
literatura consultată sau, atunci când aceasta lipseşte, cu intuiţia proprie. Practic, 
poate fi testată folosind corelatia parţială. Însă, deşi pare atrăgătoare această 
metodă de testare a veridicitatii relaţiei dintre două variabile, în realitate este 
insuficientă. Viaţa socială este mult mai complexă, fiind foarte probabil să existe 
mai mult de o variabilă care explică relaţia dintre cele două variabile corelate. 
Aceste situaţii pot fi testate mai adecvat în contextul modelelor de ecuaţii 
structurale (structural equation modeling), un subiect care depăşeşte tematica 
acestui volum. În SPSS, corelatia parţială poate fi găsită în meniul Analyze > 
Correlate > Partial (figura 8.3). 
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Figura 8.3. Meniul corelatiei parţiale (Correlate > Partial) 
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În secţiunea din stânga a ferestrei, care se deschide prin activarea meniului, 
se găsesc variabilele din baza de date. În secţiunea denumită Variables, introducem 
cele două variabile pe care dorim să le controlăm. Aici am introdus V23, satisfacția 
cu viaţa, şi V55, controlul perceput asupra propriei vieţi. În secţiunea denumită 
Controlling for introducem variabila despre care presupunem că influenţează 
relaţia dintre V23 şi V55. Aici am introdus VII, care cuprinde răspunsurile la 
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întrebarea din WVS 2012: „Cum ati descrie starea dvs. de sănătate în prezent ? 
1 Foarte bună, 2 Bună, 3 Nu prea bună, 4 Proastă”. Presupunem că persoanele 
care consideră că au o stare de sănătate pozitivă apreciază că au un control ridicat 
asupra propriei vieţi. Dacă se întâmplă acest lucru, atunci ne aşteptăm ca relaţia 
dintre controlul perceput asupra propriei vieţi şi satisfacția cu viata să se dimi- 
nueze, adică valoarea coeficientului de corelaţie Pearson să scadă. Rughiniş (2007) 
dă mai multe exemple de corelaţii iluzorii, explicând care este rolul controlului 
variabilelor în analiză. Astfel, putem explica relaţia dintre numărul de pompieri 
la locul unui incendiu şi valoarea pagubelor produse dacă luăm în considerare 
mărimea incendiului. La fel, putem înţelege relaţia dintre numărul bisericilor 
dintr-un oraş şi numărul crimelor violente, ambele fiind determinate de mărimea 
localităţii. 

În meniul corelatiei bivariate (figura 8.2), dar si în cel al corelatiei parţiale 
(figura 8.3), mai avem câteva opţiuni pe care le putem bifa sau debifa. 

Una dintre ele se referă la tipul testului de semnificaţie: two-tailed sau 
one-tailed. Opţiunea implicită în SPSS este two-tailed. Cercetătorul poate păstra 
sau modifica această opţiune în funcţie de ipoteza pe care o testează. Pentru o 
înţelegere a logicii testelor de semnificaţie, poate fi consultat orice manual de 
statistică sau lucrările dedicate acestui subiect de către Henkel (1976) şi Mohr 
(1990). În practică, aşa cum subliniază Mohr (1990), majoritatea ipotezelor sunt 
directionale, adică presupunem că relaţia are o anumită direcţie. Din acest motiv, 
ar trebui să selectăm one-tailed. Însă acelaşi autor consideră că mulţi cercetători 
adoptă o perspectivă mai conservatoare şi aleg opţiunea two-tailed, ca şi când 
natura relaţiei nu ar putea fi prezisă, folosind termenii lui Field (2009). De 
exemplu, dacă credem că persoanele care consideră că au control asupra propriei 
vieţi vor fi mai satisfăcute cu viaţa lor, atunci aş putea alege opţiunea one-tailed. 
Dar dacă nu ştim la ce să ne aşteptăm, alegem opţiunea two-tailed. E preferabil 
să alegem varianta conservatoare şi să păstrăm opţiunea implicită din SPSS. 

O altă opţiune este Flag significant correlations în meniul corelatiei bivariate 
(figura 8.2) şi Display actual significance level în meniul corelaţiei parţiale 
(figura 8.3). Ambele opţiuni au efect doar asupra modului de prezentare a tabelelor 
în Output. Prefer opţiunea implicită din SPSS. În tabelul 8.1 sunt prezentate 
rezultatele cu şi fără aceste opţiuni bifate. În cazul corelatiei bivariate, când 
păstrăm bifată opţiunea implicită, în dreptul coeficientului de corelaţie sunt notate 
una sau mai multe steluțe (*, **), în funcţie de valoarea pe care o ia nivelul de 
semnificaţie. Când lucrăm, acest ajutor vizual poate fi foarte util, de aceea 
recomand utilizarea sa. În cazul corelatiei parţiale, lucrurile stau invers: prin 
debifare sunt afişate stelutele în defavoarea valorii nivelului de semnificaţie. 
Tabelul afişat este mai puţin complex, dar dacă în lucrarea pe care o pregătim 
trebuie să raportăm chiar nivelul de semnificaţie calculat, atunci am avea nevoie 
să păstrăm bifată opţiunea implicită. 
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Tabelul 8.1. Output cu sau fără opţiunile Flag... sau Display... în meniurile corelatiei 
bivariate, respectiv corelatiei parţiale 





Correlations 































































































V23 V55 How much 
Satisfaction freedom of 
with your life choice and 
control over 
own life 
V23 Satisfaction with your | Pearson Correlation 1 333” 
life Sig. (2-tailed) .000 
N 1491 1474 
V55 How much freedom of | Pearson Correlation 333" 1 
choice and control over Sig. (2-tailed) 000 
Own lite N 1474 1484 
**. Correlation is significant at the 0.01 level (2-tailed). 
Correlations 
V23 V55 How much 
Satisfaction freedom of 
with your life choice and 
control over 
own life 
V23 Satisfaction with your | Pearson Correlation 1 333 
life Sig. (2-tailed) 000 
N 1491 1474 
V55 How much freedom of Pearson Correlation .333 1 
choice and control over own life 
Sig. (2-tailed) .000 
N 1474 1484 
Correlations 
Control Variables V23 V55 How much 
Satisfaction freedom of 
with your life choice and 
control over 
own life 
V11 State of V23 Correlation 1.000 .301 
health (subjective) | Satisfaction 
with your life | Significance . .000 
(2-tailed) 
df 0 1471 
V55 How Correlation .301 1.000 
much freedom 
of choice and 
control over 
own life 
Significance .000 
(2-tailed) 
df 1471 0 
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Correlations 
Control Variables V23 V55 How 
Satisfaction much 
with your | freedom of 
life choice and 
control over 
own life 
V11 State of health V23 Satisfaction with | Correlation 1.000 3017 
(subjective) your life 
V55 How much Correlation 3017 1.000 
freedom of choice 
and control over own 
life 
**. Correlation is significant at 0.01 level 








În ambele meniuri, există butonul Options care activează opţiunile prezentate 
în figurile 8.2b şi 8.3b. Cu excepţia, Cross-product deviations and covariances 
şi Zero-order correlations, celelalte opţiuni sunt similare. În practică, de regulă, 
în cazul corelatiei bivariate, bifăm Means and standard deviations, iar în cazul 
corelatiei parţiale bifăm această opţiune şi Zero-order correlations. Prima 
opţiune ne afişează media şi abaterea standard pentru fiecare dintre variabilele 
incluse în analiză (tabelul 8.2). 


Tabelul 8.2. Opţiunea Means and standard deviations din meniurile corelatiei bivariate, 
respectiv corelatiei partiale 


Descriptive Statistics 

















Mean Std. Deviation N 
V23 Satisfaction with your life 6.70 2.385 1474 
V55 How much freedom of 7.88 2.279 1474 
choice and control over own 
life 














Faptul că ni se oferă posibilitatea de a calcula media şi abatarea standard pentru 
variabilele corelate face evident, încă o dată, că această analiză solicită variabile 
metrice continue. În exemplul prezentat aici, am utilizat două scale simple tip 
Likert cu 10 variante de răspuns şi o scală simplă tip Likert cu 4 variante de 
răspuns. Mediile şi, implicit, abaterile standard, calculate pentru astfel de variabile 
au un caracter mai degrabă artificial fiind, uneori, chiar dificil de interpretat (de 
exemplu, când scala are o variantă de mijloc evidenţiată printr-o etichetă de tipul 
„nici acord, nici dezacord”). Chiar dacă în practică astfel de analize sunt acceptate 
convenţional, trebuie să fim conştienţi de posibilele erori pe care le putem 
introduce în interpretările substanţiale ale unor astfel de rezultate. 
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Tabelul 8.3. Opţiunea Zero-order correlations în meniul corelatiei parţiale 
Correlations 
Control Variables V23 V55 How | V11 State 
Satisfac- much of health 
tion with | freedom | (subjec- 
your life | of choice tive) 
and 
control 
over own 
life 
-none-â V23 Satisfaction | Correlation 1.000 333" -.365" 
with your life 
V55 How much Correlation 333" 1.000 -.154” 
freedom of choice 
and control over 
own life 
V11 State of Correlation -.365" -.154” 1.000 
health (subjective) 
V11 State of V23 Satisfaction | Correlation 1.000 .301” 
health (subjec- | with your life 
tive) V55 How much Correlation 3017 1.000 
freedom of choice 
and control over 
own life 




















a. Cells contain zero-order (Pearson) correlations. 








**. Correlation is significant at 0.01 level 








Zero-order correlations (tabelul 8.3) se referă la corelatiile bivariate dintre 
toate variabilele pe care le includem in analiza de corelaţie parţială. Aici avem 
trei variabile : v23, v55 şi vll. Corelatia parţială cu o singură variabilă de control 
se numeşte first-order correlation. 

În fine, ultimul lucru care ne interesează, la acest nivel, este modul de tratare a 
nonrăspunsurilor în analiza de corelaţie. Deşi nu am menţionat până acum, bănuiesc 
că a fost evident că nu putem calcula coeficientul de corelaţie Pearson sau oricare 
altul decât după ce am instruit SPSS să dezactiveze în analize codurile de nonrăspuns 
(missing). Pentru cele trei variabile utilizate pentru exemplificare, tabelele de frecvenţe 
(Analyze > Descriptive statistics > Frequencies) arată următoarele : 























Variabila Volumul Nonraspunsuri Volumul 
esantionului valid 

V23, satisfactia cu viata 1503 13 / 1% 1490 

V55, controlul perceput asupra 1503 20 / 1% 1483 

propriei vieţi 

V1, evaluarea sănătăţii proprii 1503 1/0.1% 1502 
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Nonrăspunsurile (codurile -2 - „nu răspund”, respectiv -1 - „nu ştiu”) au fost 
scoase din analiză în Variable View > Missing > Discrete missing values. După 
această operaţiune, au fost calculati coeficienţii de corelaţie. Dacă ne uităm în tabelul 
8.2, observăm în dreptul celor trei variabile acelaşi total, 1.474 persoane. S-a ajuns 
la acelaşi total selectând Exclude cases listwise în secţiunea Missing Values. Au 
fost ignorati în analiza de corelaţie indivizii care nu au oferit un răspuns valid la 
cel puţin una dintre cele trei variabile analizate. Dacă selectam Exclude cases 
pairwise, atunci am fi avut totaluri diferite la variabile astfel : la corelatia bivariata 
1.490 la v23 şi 1.483 la v55. În practică, pentru a nu introduce erori de interpretare, 
dată fiind compoziţia diferită a grupurilor, alegem să tratăm nonrăspunsurile 
listwise. 

În încheiere, să interpretăm şi coeficienţii de corelaţie bivariată, respectiv cei 
de corelaţie parţială. Folosim informaţiile din figura 8.4. 

În ambele situaţii, fie că avem o corelaţie bivariată, fie una parţială, mai întâi 
consultăm valoarea p (nivelul de semnificaţie), care în SPSS este notată Sig sau 
„Significance”. Pragul de semnificaţie este ales a priori analizei. Pragurile 
acceptate sunt 0.05 şi 0.01. Dacă am ales pragul cel mai puţin restrictiv, 0.05, 
şi observăm că p calculat este mai mic decât această valoare, atunci putem respinge 
ipoteza de nul a lipsei de corelaţie (am folosit varianta two-tailed, non-directio- 
nală). Pentru corelatia dintre v23 (satisfacția cu viata) şi v55 (controlul perceput 
asupra propriei vieţi) p este egal cu 0.000. De fapt, p nu este 0, ci o valoare cu 
foarte multe zecimale după virgulă. Fiind mai mică decât 0.05 putem aprecia că 
există o corelaţie între satisfacţie şi control. 

Semnul coeficientului de corelaţie Pearson este „+”, deci am fi tentaţi sa 
spunem că ambele variabile variază în acelaşi sens. Deoarece acestea sunt măsurate 
prin scale cu 10 puncte, trebuie să vedem cum sunt codificate. Aici sensul este 
acelaşi : codul cel mai mic înseamnă situaţia negativă (satisfacţie scăzută, respectiv 
lipsa controlului), iar codul cel mai mare înseamnă situaţia pozitivă (satisfacţie 
ridicată, respectiv prezenţa unui control ridicat). Aşadar semnul pozitiv indică o 
relaţie pozitivă. Ne amintim că, teoretic, corelatia nu implică cauzalitate. În 
practică însă, cercetătorul atribuie unei variabile rolul de dependentă, iar celeilalte 
de independentă. Aici am interpreta că, atunci când sentimentul de control asupra 
propriei vieţi creşte, creşte şi satisfacția cu viata. 

În fine, trebuie să apreciem cât de puternică este corelatia: r = 0.33. Folosind 
regulile empirice întâlnite în multe surse ştiinţifice, aceasta este o corelaţie moderată. 

Interpretarea este similară pentru coeficientul de corelaţie parţială. Apare ceva 
în plus din punct de vedere conceptual, lucru evident în tabelul 8.3. Să ne reamintim 
că am controlat pentru v11, evaluarea stării de sănătate, pentru că am presupus că 
explică partial relaţia dintre controlul perceput asupra vieţii şi satisfacția cu viata. 
Dacă se întâmplă aşa, atunci ne aşteptăm ca, după ce am controlat pentru vll, 
corelatia dintre v23 şi v55 să scadă. Coeficientul de corelaţie bivariată dintre v23 
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şi v55 este egal cu 0.33, iar după ce am controlat pentru v11 acesta scade la 0.30. 
Diferenţa nu este mare. Putem fi entuziaşti şi să observăm scăderea, dar trebuie 
să fim şi realişti văzând că diferenţa nu este mare. Probabil mai există şi alţi 
factori care modelează relaţia dintre v23 şi v55. Dar testarea acestei idei presupune 
un cadru multivariat. 


8.2. Regresia liniară multiplă 


Calitatea vieţii unei persoane sau, în ansamblu, a unei populaţii are două com- 
ponente: una obiectivă, de stare, şi una subiectivă, de evaluare (Zamfir et al., 
1984). Aceste două componente presupun efectuarea unor măsurători pe mai 
multe dimensiuni ale vieţii. La nivel individual starea sănătăţii se poate măsura, 
printre altele, prin prezenta/absenta unei boli cronice şi/sau a unei incapacitati 
fizice care împiedică persoana, într-o anumită măsură, să îşi desfăşoare activităţile 
într-o zi obişnuită. La nivel naţional, starea sănătăţii se poate măsura, printre 
altele, folosind rata de morbiditate. Elaborarea unui set comprehensiv de indicatori 
pentru care poate fi culeasă informaţie statistică de calitate este dificilă dată fiind 
complexitatea dimensiunilor vieţii umane. O încercare de sistematizare este oferită 
de Mărginean (2005). Această perspectivă asupra calităţii vieţii ia prea puţin în 
considerare persoana ca fiinţă care participă la viaţa socială. De aceea, setul de 
indicatori de stare este completat cu o serie de indicatori de evaluare a calităţii 
vieţii. În anchetele dedicate calităţii vieţii, cum ar fi Diagnoza Calităţii Vieţii 
ICCV sau European Quality of Life Survey, indivizii sunt rugaţi să aprecieze cât 
de bune sau proaste sunt, de exemplu, serviciile de sănătate publice. De asemenea, 
sunt rugaţi să îşi exprime gradul de mulţumire cu diferite domenii ale vieţii 
proprii, dar şi cu viaţa în general. 

Satisfactia cu viata primeşte o atenţie deosebită în studiile de calitatea vieţii 
pentru că reflectă analiza raţională a propriei situaţii (Diener, 1984), luând în 
calcul simultan valorile pentru toate criteriile relevante ale standardului subiectiv 
al unei vieţi bune (Veenhoven, 1996). O satisfacţie cu viaţa ridicată înseamnă o 
calitate a vieţii ridicată. Rămâne să identificăm care sunt factorii care sporesc 
satisfacția cu viata. 

Factorii care explică satisfacția cu viata pot fi grupaţi în mai multe calupuri. Un 
prim calup se referă la caracteristicile individuale : gen, vârstă, educaţie, stare 
civilă, situaţie financiară, stare de sănătate obiectivă şi autoevaluată etc. Aceşti 
indicatori sunt nelipsiti, jucând, de regulă, rolul de variabile de control. Un al doilea 
calup se referă la mecanismele psihologice şi psihosociale care determină un nivel 
mai scăzut sau mai ridicat al satisfacţiei cu viata, cum ar fi procesul comparatiei 
sociale (Michalos, 1985 ; Easterlin er al., 2010) sau cel al maximizării, întâlnit in 
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societăţile de consum (Schwartz, 2004). Un al treilea calup se poate referi la calitatea 
percepută a serviciilor publice şi condiţiilor de trai din zona în care persoana 
locuieşte (Gandelman, Piani şi Ferre, 2012). Fără a epuiza subiectul, aş mai nota 
aici setul de caracteristici materiale şi/sau culturale al unei unităţi sociale cum ar 
fi vecinătatea (de exemplu, cartierul sau sectorul în oraşe), judeţul, regiunea de 
dezvoltare sau istorică ori chiar tara (Hagerty şi Veenhoven, 2003; Inglehart si 
Welzel, 2005; Inglehart et al., 2008; Hooghe şi Vanhoutte, 2011 ; Mikucka, 
2012). Din perspectiva sociologului, abordarea multinivel este necesară pentru 
explicarea cât mai adecvată a variaţiei satisfactiei cu viata. Multinivel înseamnă 
includerea simultană în analiza de regresie a caracteristicilor individuale culese 
prin chestionare şi a caracteristicilor unităţii sociale relevante pentru studiu dis- 
ponibile, de regulă, la Institutele Naţionale de Statistică sau Eurostat ori alte 
organizaţii internaţionale care au ca obiect de activitate agregarea indicatorilor 
pe care îi furnizează primăriile, spitalele, angajatorii etc. Analiza multinivel este 
doar o regresie, după cum spune Bickel (2007), dar, fiind ceva mai complicată, 
nu va fi tratată aici. Pentru a înţelege analiza multinivel, trebuie să înţelegem 
analiza la nivel individual. 

Am putea fi interesaţi, de exemplu, să vedem cum variază satisfacția cu viata 
în funcţie de starea materială a persoanelor, dar şi de reprezentarea despre această 
stare materială. Teoretic, reprezentarea despre situaţia materială ar trebui să fie 
consistentă cu starea concretă. Totuşi, aşa cum arată multe studii care pornesc de 
la teoria comparatiei sociale, starea şi reprezentarea pot să acţioneze ca factori 
independenţi asupra satisfactiei cu viata. De exemplu, unei persoane îi este mai 
degrabă teamă să piardă un lucru dobândit decât să câştige acel lucru (loss 
aversion) (Tversky şi Kahneman, 1991). Tocmai la cei care au acumulat mai multe 
resurse s-ar putea să acţioneze un mecanism de insatisfactie prin modificarea in 
sus a standardului de referinţă (Graham şi Pettinato, 2006). 

Pentru exemplificare vom utiliza datele culese în cercetarea Diagnoza Calităţii 
Vieţii 2003 de către Institutul de Cercetare a Calităţii Vieţii. Pentru a menţine 
caracterul introductiv al volumului, vom realiza o analiză de regresie care are 
doar două variabile independente : venitul persoanelor active pe piaţa muncii şi 
autopozitionarea pe scala sărac-bogat. Variabila dependentă este satisfacția cu 
viata. Formulările exacte din chestionar sunt : 


Cât de satisfăcut sunteţi de viata dvs. în general? 












































0 1 2 3 4 5 6 T 8 9 10 
Complet Complet 
nesatisfăcut satisfăcut 





Vă rugăm să menţionaţi toate veniturile gospodăriei dvs. din luna trecută, mai 2003 
Dumneavoastră 














Salariul din activitatea principală 
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Salariu de la un al doilea loc de muncă O DOO 
Venituri din activităţi ca întreprinzător/patron 
Venituri din activităţi ocazionale 
Venituri din proprietăţi (profit, dobânzi, dividende, chirii) 
Venituri obţinute din vânzarea produselor agricole 























respectiv 


În orice societate, unii oameni se consideră bogaţi, alţii se consideră săraci. Având în 
vedere numerotarea de la 1 la 10, dvs. unde vă situaţi? 
1 2 3 4 5 6 7 8 9 10 
Sarac Bogat 





Regresia liniară multiplă se exprimă formal prin ecuaţia : 
Y=0 + PX li ab tee pX te 
Pentru noi, aceasta devine : 


Satisfactia Venitul Autopozitionarea 
cu =a+B,* persoanelor + B,* pe scala + e. 
viaţa active sărac-bogat 


Rulând această analiză putem răspunde următoarelor întrebări : 


e Exista un efect semnificativ statistic al celor două variabile independente asupra 
satisfactiel cu viata? 

e Dacă există, care este direcţia acestei relaţii? În ce sens se modifică satisfactia 
cu viata când venitul persoanelor active se modifică? Dar când autopozitio- 
narea pe scala sărac-bogat se modifică ? 

e Cu câte unităţi se modifică satisfacția cu viata atunci când venitul persoanelor 
active se modifică cu o unitate ? Dar când autopozitionarea pe scala sărac-bogat 
se modifică cu o unitate ? 

e Ce parte din varianta satisfactiei cu viata este explicată de venitul persoanelor 
active şi autopozitionarea pe scala sărac-bogat? 


În termeni substantiali, putem afla dacă situaţia materială şi/sau reprezentările 
despre aceasta explică satisfacția cu viata şi, în caz că da, dacă efectul situaţiei 
materiale se păstrează atunci când controlăm pentru reprezentarea despre aceasta. 
De asemenea, putem deduce dacă trebuie să mai căutăm şi alţi factori explicativi 
ai satisfactiei cu viata pe care i-am omis din analiză. Acesta este un exemplu 
didactic. Dacă am scrie o lucrare ştiinţifică, atunci, cu certitudine, modelul ar 
trebui să fie mai complex. Am exclus, de exemplu, variabile de control esenţiale 
cum ar fi genul, vârsta, educaţia sau alti predictori esentiali ai satisfactiei cu viata 
cum ar fi evaluarea propriei stări de sănătate, evaluarea domeniilor importante 
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ale vieţii ş.a. Indiferent de cât de complex este modelul nostru, trebuie, înainte 
de a începe analiza în SPSS, să avem un model explicativ clar specificat care ţine 
cont de ceea ce a fost deja demonstrat în domeniu. Una dintre cerinţele esenţiale 
ale acestei analize este specificarea corectă a modelului, adică includerea tuturor 
variantelor relevante. Evident, realitatea socială este prea complexă pentru a oferi 
explicaţii perfecte. Dar explicaţiile parţiale pe care le producem trebuie să fie 
consistente. De aceea, analiza de regresie nu se face prin „încercare şi eroare”. 
Nu deschidem baza de date şi începem să introducem şi să scoatem variabile 
independente în model până când rezultă ceva care seamănă cu ceea ce credeam 
că ar fi trebuit să rezulte. În fond, în eşantioanele cu volume mari o să găsim 
relaţii semnificative statistice din pură întâmplare. 

Regresia liniară multiplă este doar un tip de regresie. Probabil, este cel mai 
utilizat tip. Opţiunea pentru un tip de regresie ţine, printre altele, de caracteristicile 
variabilei dependente. Dacă variabila dependentă este cantitativ continuă, atunci 
putem utiliza regresia liniară multiplă. Dacă este dummy (1/0), unde codul 1 este 
atribuit caracteristicii care ne interesează, atunci putem utiliza regresia logistică 
binară. Dacă este nominală cu cel puţin trei categorii, atunci putem utiliza regresia 
logistică multinomială. Dacă reprezintă o numărare şi are o distribuţie în formă 
de J întors sau J simplu, putem utiliza regresia count. Dacă este ordinală, putem 
utiliza regresia ordinală. Lista poate continua. Literatura în această zonă este bine 
dezvoltată. Revenind la regresia liniară multiplă, am spus că variabila dependentă 
trebuie să fie cantitativă continuă. În ştiinţele sociale, cu precădere, dar fără a 
ne limita doar la acestea, este destul de greu să identificăm instrumente de 
măsurare care produc variabile care iau, teoretic, o infinitate de valori. De regulă, 
atunci când reuşim să măsurăm cantitativ, aceastea au un caracter discret. Una 
dintre cele mai întâlnite proceduri de măsurare în ştiinţele sociale este scala tip 
Likert. Rensis Likert este unul dintre pionierii măsurării în ştiinţele sociale, 
propunând o scală compusă care îi poartă numele fiind, chiar şi astăzi, foarte 
populară (Likert, 1932). Atunci când auzim un analist spunând „scală tip Likert” 
nu înseamnă în mod necesar că se referă la scala compusă. Acesta s-ar putea 
referi la tipul variantelor de răspuns. Forma standard este Acord/Dezacord, acestea 
fiind extremele unei scale de răspuns cu minim patru puncte: Acord total (4), 
Acord (3), Dezacord (2), Dezacord total (1). Există multe variante, cu sau fără 
variantă de mijloc: 





Dezacord total (1), Dezacord (2), Acord (3), Acord total (4) 

Dezacord total (1), Dezacord (2), Nici acord, nici dezacord (3), Acord (4), Acord total (5) 
Dezacord total (1) (2) (3) (4) (5) (6) Acord total (7) 

Dezacord total (1) (2) (3) (4) (5) (6) (7) (8) (9) Acord total (10) 

Dezacord total (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Acord total (11) 

Complet nesatisfăcut (1) (2) (3) (4) (5) (6) (7) (8) (9) Complet satisfăcut (10) 
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Pe lângă numărul variantelor de răspuns sau opţiunea pentru utilizarea variantei 
de mijloc, pot fi folosite şi etichete diferite. Acestea sunt variabile ordinale care, mai 
ales când au cel puţin şapte variante de răspuns, sunt considerate de interval. Fiind 
considerate de interval, sunt utilizate în mod curent în analizele statistice ca variabile 
dependente în regresia liniară multiplă. Există argumente pro şi contra (Carifio şi 
Perla, 2007). Referindu-se mai degrabă la variabilele numerice cu puţine valori 
(cantitative discrete) folosite drept variabile dependente, Berry (1993) recomandă să 
nu folosim variabilele cantitative discrete ca dependente în regresia liniară atunci când 
numărul valorilor este mai mic decât 5, iar Fox (1991), pe lângă această recomandare, 
fără însă a cuantifica ca Berry, consideră că mai reprezintă o problemă serioasă doar 
atunci când majoritatea răspunsurilor sunt concentrate pe un număr mic de valori. 

O altă cerinţă esenţială a regresiei liniare este, aşa cum sugerează chiar numele 
analizei, ca relaţia dintre variabila dependentă şi variabilele independente să fie 
liniară. Dacă nu este respectată această cerinţă, atunci trebuie aplicată o formă 
de regresie nonliniară. 

În SPSS, analiza de regresie liniară multiplă poate fi realizată din meniul 
Analyze > Regression > Linear (figura 8.4). Acesta este intuitiv. 


Figura 8.4. Meniul Analyze > Regression > Linear 
(a) 
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(c) 
3 Linear Regression: Statistics 
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În secţiunea Dependent, introducem variabila dependentă. Aici aceasta este 
satisfacția cu viata care, în baza de date, are numele e154. 

Urmează secţiunea Block 1 of 1 - Independent(s), unde introducem variabilele 
independente. În exemplul nostru, avem două variabile independente, venitul din 
ultima lună al persoanelor active pe piaţa muncii, care poartă numele d83vensubact 
în baza de date, respectiv autopozitionarea pe scala sărac-bogat, care poartă 
numele d70 în baza de date. Cum spuneam, analiza de regresie presupune elabo- 
rarea modelului explicativ a priori utilizării programului de statistică. Putem 
aborda analiza în mai multe moduri. O primă variantă constă în introducerea 
tuturor variabilelor independente într-un singur calup sau block (am să folosesc 
block pentru a asigura corespondenţa cu programul). A doua variantă constă în 
gruparea, justificată teoretic, a variabilelor independente în mai multe blockuri. 
Am putea crea un block care conţine variabilele de control (gen, vârstă, stare 
civilă etc.). Apoi am putea crea un alt block care conţine informaţii despre situaţia 
materială a persoanei (venit, proprietăţi etc.). În fine, am putea crea un block 
care conţine informaţii despre cum se vede (percepe) persoana în societate din 
perspectiva resurselor materiale pe care le deţine (autopozitionarea pe scala 
sărac-bogat, raportarea subiectivă a venitului la necesităţi etc.). Pentru că varia- 
bilele din cele trei blockuri au o utilitate proprie, surprinzând aspecte distincte 
de celelalte, are sens să le folosim ca atare. 

Variabilele independente pot fi folosite ca atare sau pot fi grupate în scoruri 
compuse. Dacă teoria spune că unele variabile ar putea fi grupate sau trebuie 
grupate în diferite scoruri compozite sau, altfel spus, indici, atunci am fi utilizat 
în regresie aceşti indici. De exemplu, dacă am fi măsurat o variabilă independentă 
printr-o scală compusă Likert, atunci ar fi fost necesară calcularea scorului 
sumativ (varianta standard) sau am fi calculat media afirmațiilor care o compune 
ori am fi realizat o analiză factorială exploratorie salvând scorurile factoriale pe 
care, ulterior, le-am fi utilizat în regresie. Există mai multe metode de calculare 
a indicilor, decizia aparţinând în final analistului. Acesta va trebui să pună în 
balanţă proprietăţile statistice ale indicelui calculat cu dificultatea de interpretare 
a acestuia în analiza de regresie. Scorul sumativ este mai greu de interpretat decât 
media variabilelor care constituie scala compusă. Indicele calculat ca medie a 
variabilelor variază în acelaşi interval cu cel al variantelor de răspuns, deci va fi mai 
uşor de înţeles. Scorul sumativ pentru o scală compusă cu 4 variabile şi 10 variante 
de răspuns, unde 1 = acord şi 10 = dezacord, variază între 4, dacă respondentul 
alege codul 1 la toate variabilele, şi 40, dacă alege codul 10 la toate variabilele. 
Cercetătorul trebuie să clarifice ce înseamnă scorul 13 sau scorul 33. La fel se 
întâmplă cu scorul factorial. 

În secţiunea Method, avem mai multe metode, cea implicită fiind Enter. 
Aceasta este cea pe care o preferăm deoarece lasă la latitudinea cercetătorului 
modul în care introduce variabilele independente în analiză. Este consistentă cu 
elaborarea preliminară a modelului explicativ. Celelalte seamănă, mai degrabă, 
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x” 


cu un proces de incercare-eroare prin care analistul „caută 
statistic. 

În secţiunea Selection Variable putem introduce o variabilă care identifică 
anumite grupuri, instruind astfel SPSS-ul să ruleze analiza de regresie doar pe 
anumite cazuri. De exemplu, dacă doresc să realizez analiza doar pentru bărbaţi, 
atunci introduc variabila sex, aici del (figura 8.4b). Odată introdusă variabila, 
se activează butonul Rule. De la del = ? trebuie să ajungem la del=1. Adică 
trebuie să introducem codul care identifică grupul pentru care dorim să facem 
analiza de regresie. Printr-un tabel de frecvenţă am aflat că bărbaţii au codul 1 
şi, deoarece dorim să rulăm regresia pentru bărbaţi, apăsăm butonul Rule şi 
introducem cifra 1 în câmpul Value după ce ne-am asigurat că este selectată 
opţiunea equal to în secţiunea Define selection rule. 

În secţiunea Case Labels putem introduce o variabilă care identifică cazurile 
în mod precis în graficele pe care le realizăm odată cu celelalte calcule specifice 
analizei de regresie. De exemplu, am putea introduce identificatorul unic pentru 
fiecare respondent care, în această bază de date, se numeşte chest. 

În secţiunea WLS Weight putem introduce o variabilă specială care ne permite 
rularea unui regresii liniare ajustate, utilă atunci când este încălcată asumptia 
homoscedasticitatii (homoskedasticity) (Lewis-Beck, 1980). 

Meniul are o serie de butoane : Statistics, Plots, Save şi Options. Vom prezenta 
în continuare unele dintre cele mai importante şi utile opţiuni pe care le putem 
alege. 

Butonul Statistics (figura 8.4c) conţine informaţiile esenţiale pentru care 
alegem să rulăm această analiză. Implicit sunt selectate, în secţiunea Regression 
Coefficient, Estimates şi, alături, Model fit. Estimates ne va afişa coeficienţii 
de regresie nestandardizati şi coeficienţii de regresie standardizati. Coeficientii de 
regresie nestandardizati (acei B din ecuaţia de regresie) ne arată cu cât se modifică 
variabila dependentă atunci când variabila independentă corespunzătoare se 
modifică cu o unitate. Aceştia pot avea semnul minus sau plus, în funcţie de 
relaţia dintre X şi Y, dar şi de modul în care sunt codificate cele două. Model 
fit ne afişează valorile R? şi R? ajustat. R? se numeşte coeficient de determinare 
şi ne arată cât din variaţia variabilei dependente este explicată de variabilele 
independente incluse în model. Acesta variază între 0 şi 1, dar noi îl vom 
transforma în procente pentru că este mai uşor de citit. Un R? egal cu 0.56 
înseamnă că 56% din variaţia variabilei dependente este explicată de variabilele 
independente incluse în model. Cu cât este mai mare valoarea, cu atât modelul 
este mai informativ. Lewis-Beck (1980) enumeră următoarele situaţii pe care 
trebuie să le avem în vedere când interpretăm valoarea coeficientului de determi- 
nare : (a) o valoare mare nu este utilă pentru interpretarea teoretică dacă modelul 
nu este specificat corect din punct de vedere logic (oferim explicaţii tautologice) ; 
(b) o valoare mică nu sugerează în mod necesar un model specificat greşit, această 
situaţie putându-se datora unor relaţii nonliniare între dependentă şi independente. 


o relaţie semnificativă 
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Pentru că R° creşte odată cu introducerea de noi variabile independente în model, 
consultăm R? ajustat, care ia în calcul această situaţie. Sunt situaţii însă, cum ar 
fi rularea analizei pe eşantioane mici (n sub 100) folosind multe variabile inde- 
pendente (peste 20), când ajustarea poate da greş (Tabachnick şi Fidell, 2007). 

În mod uzual, mai bifăm Confidence intervals, R squared change, Descriptives, 
Part and partial correlations, Collinearity diagnostics. 

Confidence intervals ne oferă intervalele de încredere pentru coeficienţii de 
regresie nestandardizati. Aceştia ne oferă posibilitatea să înţelegem mai realist 
situaţia explicativă decât estimarea punctuală. Putem vedea limitele între care 
poate varia valoarea cu care se modifică variabila dependentă atunci când variabila 
independentă se modifică cu o unitate. Când intervalul este larg, atunci estimarea 
nu este tocmai utilă din punct de vedere teoretic (Lewis-Beck, 1980). 

R squared change este util atunci când utilizăm logica blockurilor. Ne va arăta 
în ce măsură un nou block de variabile aduce un plus în explicaţia variabilei depen- 
dente. Ca şi R? ajustat, ia valori între 0 şi 1, dar îl citim în procente pentru o interpretare 
mai uşoară. Cu cât este mai mare valoarea sa, în condiţiile unei specificări corecte 
a modelului explicativ, cu atât contribuţia explicativă este mai importantă. Acesta se 
citeşte împreună cu valoarea nivelului de semnificaţie a testului calculat (sig. F 
change): atunci când p mai mic sau egal cu 0.05, blockul respectiv de variabile 
contribuie semnificativ statistic la explicarea variabilei dependente. 

Descriptives calculează mediile şi abaterile standard pentru fiecare variabilă 
introdusă în ecuaţie şi ne arată volumul eşantionului pentru care sunt efectuate 
calculele. Putem considera această opţiune ca un punct de control în analiză. 
Putem calcula media pentru variabilele introduse in model? Dacă răspunsul este 
afirmativ, atunci rezultatele analizei de regresie liniare pot fi interpretate. Dacă 
nu, atunci trebuie să căutăm o soluţie pentru variabila unde nu are sens media. 
Transformarea în variabile dummy (1/0) este soluţia atunci când trebuie să utilizăm 
variabile nominale ca variabile independente. Dacă, de exemplu, trebuie să uti- 
lizăm religia ca predictor, aceasta având trei categorii, vom alege o categorie de 
referinţă şi, cu celelalte două, vom realiza două variabile dummy. Pentru alegerea 
categoriei de referinţă nu există o regulă general valabilă: decizia depinde de 
interesele analistului. De exemplu, dacă religia are categoriile ortodox, catolic şi 
protestant, iar interesul cercetătorului este să compare evoluţia dependentei la 
catolici şi protestanți prin raportare la ortodocşi, atunci va alege religia ortodoxă 
ca referinţă şi va crea două dummy-uri astfel: 

















Variabila iniţială Variabila dummy 1: Variabila dummy 2: 
catolic protestant 

Apartenența religioasă: 1 devine 0 1 devine 0 

1. ortodox 2 devine 1 2 devine 0 

2. catolic 3 devine 0 3 devine 1 

3: protestant 
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Este obligatorie introducerea simultană în analiză a celor două variabile 
dummy. Cele două variabile sunt create folosind meniul Transform > Recode 
into different variables. Media unei variabile dummy indică procentul cazurilor 
din acea categorie prezente în eşantion şi, dacă eşantionul este reprezentativ pentru 
o populaţie, respectând structura acesteia, indică procentul cazurilor din acea 
categorie prezente în populaţie. De exemplu, dacă media variabilei dummy catolic 
este egală cu 0.31, atunci avem 31% catolici în eşantionul nostru. 

Verificând mediile variabilelor introduse în analiză, ne aducem aminte că acest 
indicator este influenţat de cazurile extreme. Cazurile extreme sunt univariate sau 
multivariate. Prezenţa unor astfel de cazuri în analiza de regresie poate modifica 
serios estimările calculate de program. De aceea, o verificare univariată sau 
bivariată folosind meniul Analyze > Descriptives > Explore este necesară. 
O altă modalitate complementară, vizuală, constă în realizarea unui grafic scatterplot 
sau, în limba română, „nor de puncte”. În figura 8.5, care prezintă relaţia dintre 
vârsta măsurată în ani impliniti şi veniturile persoanelor active pe piaţa muncii 
din eşantionul DCV ICCV 2003, observăm un caz extrem: o persoană cu vârsta 
undeva între 40 şi 50 de ani are însumate venituri neaşteptat de mari pentru vârsta 
sa. Probabil acel venit va ieşi în evidenţă şi la o inspectare univariată a variabilei 
respective, dar sunt situaţii în care nu se întâmplă aşa, scatterplotul oferind o 
informaţie foarte utilă în acest sens. 


Figura 8.5. Scatterplot care ne arată un caz extrem 


Venit 





Varsta 


Graficul a fost realizat din meniul Graphs > Legacy dialogs > Scatter - Dot > 
Simple Scatterplot (figura 8.6). 
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Figura 8.6. Meniul Simple Scatterplot 
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Considerând vârsta variabila explicativă (logic, nici nu am avea cum să o 
considerăm altfel) şi venitul variabila explicată, cea dintâi este introdusă la X 
axis, iar cea din urmă la Y axis. Pentru că, în situaţia în care observăm vreun 
caz extrem, dorim să îl identificăm uşor, am introdus la Label Cases by variabila 
care conţine id-ul unic al fiecărui respondent care, aici, se numeşte chest. În 
figura 8.5 eticheta 23 indică id-ul, această valoare putând fi utilizată pentru fil- 
trarea acestui caz din analizele viitoare, de exemplu. 

Aceste informaţii sunt utile şi pentru tabelul care conţine corelatiile bivariate, afişat 
tot prin alegerea opțiunii Descriptive statistics. Corelatiile bivariate ne ajută să ne 
facem o primă idee cu privire la relaţiile dintre variabilele incluse în analiză. 

Opţiunea Part and partial correlations va afişa trei tipuri de corelaţie: 
zero-order, part şi partial. Dintre acestea ne interesează in mod deosebit corelatiile 
semipartiale pe care SPSS le denumeşte part correlations. Această corelaţie, 
ridicată la pătrat, ne arată contribuţia unică pe care variabila independentă o are la 
explicarea variabilei dependente. Ne arată cu cât se reduce R? dacă acea variabilă 
independentă este eliminată din ecuaţia de regresie (Tabachnick şi Fidell, 2007). 
Aceşti autori explică în detaliu diferenţa dintre corelatia parţială şi cea semipartiala, 
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atrăgând totodată atenţia că acest mod de interpretare este specific utilizării regresiei 
multiple standard, adică cea obţinută prin utilizarea metodei Enter în SPSS. 

În fine, opţiunea Collinearity Statistics ne oferă doi indicatori care verifică 
asumptia absenței multicoliniaritatii : Tolerance si VIF (variance inflation factor). 
Schroeder, Sjoquist şi Stephan (1986) oferă un exemplu despre ce înseamnă acest 
lucru : pentru reducerea numărului deceselor rezultate în urma accidentelor auto 
se introduc simultan două măsuri preventive, purtarea obligatorie a centurii de 
siguranţă şi pedepsirea aspră a şoferilor prinşi conducând sub influenţa alcoolului. 
Deşi ambele variabile independente sunt, în esenţă, importante, va fi greu de 
distins efectul individual al acestora. Aceşti autori atrag atenţia asupra riscului, 
atunci când există multicoliniaritate, de a întâlni mai des coeficienţi nesemnificativi 
statistic. Exemplul dat de aceşti autori poate fi completat cu situaţiile în care 
analistul introduce în analiză variabile independente corelate puternic între ele. 
Corelaţia puternică poate veni fie din caracterul interşanjabil al indicatorilor 
(măsoară acelaşi lucru), fie din relaţii de determinare reciprocă. Dacă în exemplul 
anterior cercetătorul nu poate controla realitatea, interzicând vreuna dintre măsurile 
preventive, în a doua situaţie, rolul său este de a analiza anterior analizei de 
regresie atât din punct de vedere logic, cât şi statistic legăturile de determinare 
dintre variabilele independente. La lista de efecte negative, Field (2009) adaugă şi 
instabilitatea predictiei şi limitarea valorilor lui R?. Revenind la cei doi indicatori, 
când Tolerance, care variază între 0 şi 1, are valori mai mici decât 0.1, asumptia 
absenței multicoliniaritatii este încălcată. VIF nu are un interval exact de variaţie. 
O valoare mai mare decât 10 indică prezenţa multicoliniaritatii (Field, 2009 ; 
Kline, 2011). 

Revenind la exemplul nostru, să vedem ce se întâmplă cu satisfacția cu viata 
atunci când controlăm veniturile însumate ale persoanelor active pe piaţa muncii, 
respectiv autopozitionarea pe scala sărac-bogat. Ipoteza noastră este că ambele 
au un efect semnificativ statistic pentru că reflectă mecanisme care nu se suprapun 
perfect. Resursele materiale ne ajută să ne satisfacem nevoile, dar poziţionarea 
pe scala sărac-bogat implică un proces de comparaţie socială care ne poate face 
să ne simţim mai săraci (sau mai bogaţi) decât suntem. Depinde care este stan- 
dardul nostru de referinţă. Înainte de a rula analiza, să apăsăm butonul Options 
(figura 8.4d). Mă opresc asupra secţiunii Missing Values, unde este selectat 
Exclude cases listwise. Cunoaştem deja efectele fiecărei metode de tratare a 
nonrăspunsurilor. Nu o să modificăm nimic în acest meniu. 

Outputul analizei este prezentat în continuare. Primul tabel (tabelul 8.4) ne 
arată media, abaterea standard şi volumul eşantionului pentru care este rulată 
analiza de regresie. Satisfactia cu viata are media egală cu 5.0 şi abaterea standard 
egală cu 2.1. Valorile venitului sunt specifice anului 2003, de aici şi modul de 
prezentare, respectiv sumele mai mici comparativ cu cele de astăzi (atunci când 
le convertim în lei noi). Observăm că interpretarea mediilor scalelor ordinale, pe 
care noi le-am considerat de interval, nu este atât de evidentă cum este interpretarea 
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mediei venitului. Deoarece nonrăspunsurile au fost excluse listwise, avem acelaşi 
volum al eşantionului pe care s-a rulat analiza la toate cele trei variabile (n = 485). 
Volumul eşantionului a scăzut semnificativ. 


Tabelul 8.4. Output regresie liniară multiplă, Descriptives statistics 














Descriptive Statistics 
Mean Std. Deviation N 

e154 CAT DE SATISFACUT 5.00 2.146 485 
SUNTEŢI DE VIAŢA DVS. ÎN 
GENERAL? 
d83vensubact 3973948.45 4341032.795 485 
d70 Poziţia pe scala 4.43 1.631 485 
saracie-bogatie 




















Tabelul 8.5. Output regresie liniara, Corelatii bivariate 





























Correlations 
e154 CAT DE d83ven- d70 Pozitia 
SATISFACUT subact pe scala 
SUNTEŢI DE saracie-bo- 
VIATA DVS. gatie 
IN GENE- 
RAL? 
Pearson e154 CAT DE 1.000 .251 .662 
Correlation SATISFACUT 
SUNTETI DE VIATA 
DVS. IN GENERAL? 
d83vensubact .251 1.000 .204 
d70 Pozitia pe scala .662 .204 1.000 
saracie-bogatie 
Sig. (1-tailed) E154 CAT DE . .000 .000 
SATISFACUT 
SUNTETI DE VIATA 
DVS. IN GENERAL? 
D83vensubact .000 : .000 
D70 Pozitia pe scala .000 .000 
saracie-bogatie 
N E154 CAT DE 485 485 485 
SATISFACUT 
SUNTETI DE VIATA 
DVS. IN GENERAL? 
d83vensubact 485 485 485 
d70 Pozitia pe scala 485 485 485 
saracie-bogatie 
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Tabelul de corelaţii din tabelul 8.5 ne oferă o primă imagine a relaţiilor care 
ne interesează, dar şi informaţii preliminare despre asumptia absenței multicoli- 
niaritatii. Este calculat coeficientul Pearson, care variază în intervalul [-1, 1]. 
Nivelurile de semnificaţie calculate sunt prezentate în rândul Sig. (1-tailed). În 
principiu, satisfacția este corelată semnificativ statistic cu ambele variabile. Cei doi 
indicatori subiectivi, satisfacția şi autopozitionarea pe scala sărac-bogat, au o 
corelaţie mai puternică, lucru aşteptat având în vedere proprietăţile psihometrice 
similare. Corelatia mai mică a satisfactiei cu venitul nu trebuie luată ca atare pentru 
că ar putea indica prezenţa cazurilor extreme sau chiar a unei relaţii nonlineare. 

Tabelul 8.6 prezintă valoarea coeficientului de determinare, R Square, şi a 
coeficientului de determinare ajustat, Adjusted R Square. Diferenţele în acest 
exemplu sunt mici. De regulă, raportăm ambele valori, oferindu-le posibilitatea 
cititorilor să aprecieze diferenţele. Aşadar, 45% din variaţia satisfactiei cu viata 
pare să fie explicată de venit şi autopozitionarea pe scala sărac-bogat. Prima 
impresie ar fi că am ales bine cele două variabile independente. Testul de sem- 
nificatie este în tabelul ANOVA. Evident, aceasta este o estimare punctuală, de 
aceea ne putem imagina că ea poate varia în jurul acestei valori. 


Tabelul 8.6. Output regresie liniară, R? 





Model Summary 
Model R R Square Adjusted R Square Std. Error of the 
Estimate 
1 „6733 „452 „450 1.591 
a. Predictors: (Constant), d70 Poziţia pe scala saracie-bogatie, d83vensubact 






































ANOVA? 
Model Sum of df Mean Square F Sig. 
Squares 
1 Regression 1008.351 2 504.175| 199.085 .000° 
Residual 1220.647 482 2.532 
Total 2228.998 484 























a. Predictors: (Constant), d70 Poziţia pe scala saracie-bogatie, d83vensubact 
b. Dependent Variable: e154 CÂT DE SATISFACUT SUNTEŢI DE VIATADVS. ÎN GENERAL? 














Am ajuns la tabelul (tabelul 8.7) care ne oferă informaţiile căutate. Pentru 
fiecare variabilă independentă ne sunt oferite următoarele informaţii : 


e nivelul de semnificaţie (coloana Sig.) al testului t care indică dacă între 
variabila independentă şi variabila dependentă există o relaţie semnificativă 
statistic. Aici, pentru ambele variabile independente, acesta este mai mic decât 
pragul 0.05, pe care am decis să îl utilizăm ca referinţă, deci ambele variabile 
par să influenţeze satisfacția cu viata. 
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coeficienţii de regresie nestandardizati (coloana Unstandardized Coefficients - B). 
Aceştia ne arată că, atunci când venitul creşte, satisfacția cu viata creşte cu 
0.001 puncte pe scală, respectiv că, atunci când individul se consideră mai 
bogat, satisfacția cu viata creşte cu 0.839 puncte pe scală. Valoarea foarte 
mică a coeficientului venitului poate însemna : (a) efectul venitului este de 
fapt mic sau inexistent atunci când controlăm pentru autopozitionarea pe scala 
sărac-bogat ; (b) relaţia dintre venit şi satisfacția cu viata nu este liniară, deci 
ar trebui să revizuim analiza (eliminarea cazurilor extreme dacă există, trans- 
formarea variabilelor, introducerea în regresie a pătratului venitului etc.) ; (c) alte 
asumpţii sunt încălcate. 

coeficienţii de regresie standardizati (coloana Standardized Coefficients - Beta) 
sunt folosiţi uneori pentru a spune care dintre predictori are contribuţia cea mai 
importantă la explicarea variabilei dependente. Totuşi aceştia nu pot fi interpretati 
pentru variabilele dummy (Lewis-Beck, 1980), de aceea ne uităm mai degrabă 
la pătratul corelatiilor semipartiale din coloana Correlations - Part. 

indicii care testează absenţa multicoliniarităţii sunt prezentaţi în coloana 
Collinearity Statistics. Indicii de toleranţă sunt foarte mari, având valori peste 
pragul 0.1, iar VIF este mai mic decât 10 pentru ambele independente. Statistic 
nu există multicoliniaritate. Dar trebuie să ne gândim şi dacă, logic, efectul 
individual al celor două variabile independente poate fi disociat. 


Tabelul 8.7. Output regresie liniară, Coefficients 

































































Coefficients? 
Model Unstandar- | Standar- t Sig. 95.0% Correlations Collinearity 
dized dized Confidence Statistics 
Coefficients | Coeffici- Interval for B 
ents 
B Std. Beta Lower | Upper | Ze- | Par- | Part | Tole- | VIF 
Error Bound | Bound | ro-or- | tial rance 
der 
1 | (Constant) | 1.046] .211 4.952 | .000 „631 1.461 
d83ven- .000 | .000 „120 | 3.499 | .001 „000 .000 | .251 | .157 | .118 | .958 | 1.043 
subact 
d70 Poziția | .839 | .045 .638 | 18.518 | .000 .750 .928 | .662 | .645 | .624 | .958 | 1.043 
pe scala 
sărăcie-bo- 
gatie 
a. Dependent Variable: e154 CAT DE SATISFĂCUT SUNTEŢI DE VIAŢA DVS. IN GENERAL? 








Am înţeles care este logica regresiei liniare multiple şi cum se realizează in 


SPSS. Pasul următor firesc constă în verificarea tuturor asumptiilor pe care această 
analiză le are. Pentru înţelegerea lor vă recomand să parcurgeti lucrarea scrisă 
de Berry (1993). 
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8.3. Exerciţii 


Pentru aceste exerciţii utilizăm baza de date şi/sau chestionarul World Values 
Survey 2012 rezultat(ă/e) în urma aplicării chestionarului în România. Baza de 
date poate fi descărcată de pe pagina de internet a Grupului Românesc pentru 
Studiul Valorilor Sociale (http : //www.romanianvalues.ro). 


1. 


9. 


Citiţi materialul scris de Bogdan Voicu, Horaţiu Rusu şi Mircea Comşa, cu titlul 
Atitudini faţă de solidaritate în România, care a fost publicat în volumul 
coordonat de Lucian Marina, Ocupare şi incluziune socială, apărut la Editura 
Presa Universitară Clujeană, în 2013. 


. Creați variabila dependentă „solidaritate”. Inainte de aceasta, rescalati în acord 


cu modul de lucru al autorilor. 

Creați variabila „orientare de valoare materialistă sau postmaterialistă” în 
acord cu modul de lucru al autorilor. 

Inversaţi scala care măsoară importanţa acordată religiei în acord cu modul 
de lucru al autorilor. 


. Creați variabila dummy care măsoară comportamentul religios în acord cu 


modul de lucru al autorilor. 
Continuati procesul de creare, recodificare, transformare al variabilelor „mân- 
dria de a fi român”, „sentimentul apartenenţei naţionale”, „individualism” şi 


» A 


„Clasa socială” în acord cu modul de lucru al autorilor. 


x” 


. Pregatiti pentru analiză variabilele „vârstă”, „venit”, „educaţie”, „sex” şi „tip 


de localitate” în acord cu modul de lucru al autorilor. 

Rulati regresia liniară multiplă în care „solidaritatea” este variabila dependentă, 
iar toate celelalte sunt independente. 

Rulati din nou regresia liniară multiplă, dar de data aceasta folosiţi blockurile. 
Ce informaţie suplimentară obţineţi în acest mod? 


10. Realizati un raport de două pagini care să descrie rezultatul modelului complet 


de regresie (cu toţi predictorii): pe prima pagină este inserat tabelul de 
regresie, iar pe a doua pagină acesta este comentat cu trimitere la teoriile din 
textul celor trei autori. 
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